Формализация процедуры структуризации области исследований

Применение аксиоматической теории сходства и теории графов для решения поставленной задачи. Разбиение терминологической сети, моделирующей тематическую область. Выделение на графе классов толерантности методом его разбиения на максимально полные подграфы.

Рубрика Экономико-математическое моделирование
Вид статья
Язык русский
Дата добавления 26.06.2018
Размер файла 155,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.Allbest.ru/

Российский экономический университет им. Г.В. Плеханова

Российская таможенная академия

Формализация процедуры структуризации области исследований

Козлова И.В., доцент, к.т.н.,

Васина Е.Н., доцент, к.т.н.

Аннотация

В статье предлагается подход, использующий аксиоматическую теорию сходства и элементы теории графов для решения поставленной задачи. Задача разбиения терминологической сети, моделирующей тематическую область, на отдельные составляющие решается как задача выделения на графе классов толерантности методом разбиения графа на максимально полные подграфы.

Ключевые слова: структуризация, область исследований, тематическая структура, аксиоматическая теория сходства, класс толерантности, теория графов, кластеризация.

Kozlova I.V., Vasina E.N., Procedure formalization of researches area structurization

Abstract. In the article the approach using the axiomatic similarity theory and elements of graph theory for the solution of an objective is offered. The problem of terminological network splitting - a thematic area model is solved on separate components as a problem of allocation on tolerance classes by method of splitting the graph into the fullest subgraphs.

Keywords: structurization, researches area, thematic structure, axiomatic similarity theory, tolerance class, graph theory, clustering.

Предлагаемый в данной статье подход основан на представлении области исследований в виде совокупности отдельных научных направлений. При этом каждое направление определяется множеством терминов: ключевых слов или дескрипторов, индексирующих информационные ресурсы и связанных между собой тематическим сходством [1;3].

Удобным математическим аппаратом, описывающим сходство между объектами различной природы, является аксиоматическая теория сходства (АТС). В рамках АТС сходство объектов рассматривается как отношение между попарно сравниваемыми объектами - бинарное отношение локального сходства. В свою очередь локальное сходство рассматривается как отношение толерантности, обладающее свойствами рефлексивности и симметричности [4;5].

Для целей структуризации тематической области необходимо представить локальное сходство между терминами индексирования документов баз данных в формализованном виде. С позиций АТС, имеются два множества: T = {t1, t2, …,ti,…tn} - терминов индексирования и документов D = {d1, d2,…,dj,…dm} БД. На множестве Т задается набор признаков (свойств), т.е. одноместных предикатов P(ti) = {0,1}. Множество признаков D - документы БД. В этом случае отображение f: T>D сопоставляет каждому ti все документы, проиндексированные этим термином,- D(ti), D(ti)?D. Обратное отображение f-1: D>T сопоставляет каждому признаку dj множество T(dj,)терминов, имеющих этот признак.

Отображение f является отношением, т.е. подмножеством R декартова произведения множеств TЧD. Используя отношение R на множестве TЧD, выразим отображения f (T) и f-1(D)

- множество всех признаков термина ti;

- множество всех терминов, обладающих свойством dj

Отношение R можно изобразить в виде ориентированного графа

G (T, D, R), множество вершин которого совпадает с , а стрелки соединяют каждую вершину ti ? T с вершинами dj i ? D, для которых предикат P(ti ) = 1.

Дальнейшие рассуждения основываются на важном понятии АТС - «карты»: С = < Т, D, R>, где T и D- множества терминов и документов, R - отношение на TЧD. Карта - это экспликация понятия «множество с признаками». Из свойства регулярности карты C вытекает [4]:

1. Отображение f (отношение R) определено на всем множестве T и отображает T на D, т.е. каждый термин обладает хотя бы одним признаком;

2. Если для двух признаков d1 и d2 множества прообразов совпадают, то признаки d1 и d2совпадают, разным признакам соответствуют разные множества терминов.

Вхождение множества Т в карту C позволяет определить на Т отношение локального сходства ф, называемое отношением толерантности (сходства) при выполнении следующих условий:

· рефлексивность ti ф ti , ti ?Т;

· симметричность ti ф tj > tj ф ti , ti ?Т, tj ?Т;

· интранзитивность ti ф tj & ti ф tr not >, tj ф tk.

Термины ti и tj локально сходны, если: D(ti )? D(tj )?Ш

Из вышесказанного следует:

1. Локальное сходство требует наличия общего признака у пары терминов;

2. Для любой регулярной карты C = <T,D,R> на множестве терминов T можно ввести отношение сходства ф.

Множество T с заданным на нем отношением толерантности ф рассматривается как пространство толерантности Tф = <T, ф>. Tф можно изобразить неориентированным графом G (T, ф), в котором ребрами соединены вершины - термины индексирования, связанные отношением ф.

Отношение сходства между двумя терминами определяется их совместной встречаемостью в одних и тех же документах. Это свойство терминов широко применяется при статистическом анализе документальных информационных ресурсов, а также создании карт науки. Граф G (T,ф)представляет собой «терминологическую сеть», заданную на множестве терминов индексирования [2].

Для попарно толерантных терминов используем понятие «предкласса» толерантности:

· подмножество L ? Tф называется предклассом в Tф, если выполнено соотношение ti ф tj;

· подмножество К ? Tф называется классом толерантности, если для любых ti и tj, принадлежащих этому классу ti ф tj, а для любого tk , не принадлежащего К, найдется в K хотя бы один термин tj , для которого tk ф tj не будет выполнено.

Отсюда следует, что:

· класс толерантности - максимальный (по включению) предкласс;

· если ti и tj, принадлежат одному классу, то ti ф tj ;

· если ti ф tj, то существует общий класс, содержащий ti и tj ;

· все классы толерантности в пространстве Tф = <T, ф> однозначно определены.

Другими словами, для нашего случая класс толерантности - это максимальное множество взаимно толерантных терминов. Локальное сходство задается как покрытие множества терминов классами толерантности. Множество всех классов толерантности для данного отношения будем обозначать K, тогда пространство толерантности будет выражено:

Отметим, что в графе G (T, ф), класс толерантности образует максимальный полный подграф: все вершины, входящие в один класс, соединены ребрами.

Таким образом, задача выделения на графе G (T, ф) классов толерантности, рассматриваемая нами как задача разбиения терминологической сети, моделирующей тематическую область, на отдельные составляющие сводится к разбиению графа G (T, ф) на максимально полные подграфы.

Существует и другой путь разбиения терминологической сети G (T, ф), состоящий в установлении отношения транзитивного замыкания на множестве Tф. Отношение сходства, заданное на множестве терминов, в общем случае не транзитивно, т.е.

(1)

аксиоматический сходство граф терминологический сеть

Принято считать термины сходными по смыслу, если сходны их окружения, т.е. связь терминов ti и tk осуществляется через термин tj. Эта связь терминов может быть получена с помощью композиции отношения ф.

Обозначим композицию отношения ф с самим собой:

ф(2) = ф ф (2)

Условие существования отношения ф (2) имеет вид:

(3)

Формула (3) основана на существовании косвенной связи между терминами ti и tk через термин tj.

Транзитивное замыкание отношения ф будем обозначать через . Соотношение ti tj, выполнено, если существует цепочка элементов из Tф: z0 = ti, z1…,zn = tj такая, что между соседними элементами этой цепочки выполнено отношение ф:

z0 ф z1, z1 ф z2,…zn-1 ф zn (4)

В частном случае эта цепочка может состоять только из двух элементов (n = 1): z0 = ti и z1 = tj. Если выполнено ti ф tj , т.е. z0 ф z1 , то выполнено и соотношение ti tj . Это можно записать в виде . Если цепочка состоит из трех элементов (n = 2), то ti ф tj и tj ф tk . Следовательно,

ti ф°ф tk и ti tj только в том случае, если выполнено хотя бы одно соотношение вида:

ti ф°ф°ф… °ф tj или ti ф(n) tj (5)

Используя операцию объединения множеств, отношение транзитивного замыкания можно представить в виде:

(6)

т.е. транзитивное замыкание отношения ф - это объединение всех степеней данного отношения.

Представление отношения ф в виде графа G (Т, ф) позволяет отождествить задачу поиска транзитивного замыкания отношения ф с задачей о достижимости вершин графа, т.е. поиска произведения ребер, соединяющего вершины графа ti и tk. Иначе говоря, эта задача эквивалентна разбиению графа G (Т, ф) на связные компоненты, т.е. такие подграфы, в которых каждая пара вершин связана некоторым путем [9]. При этом из терминологической сети выделяются подграфы, включающие максимально возможные подмножества пар терминов, последовательно присоединяемых к исходной паре терминов с использованием связи через посредника. Каждый такой подграф моделирует отдельное тематическое направление данной области исследований.

В формализованном виде задача выделения тематических направлений в заданной области исследований выглядит следующим образом. Имеется множество документов D = {d1, d2,…di,…dM}- фрагмент БД, являющееся информационной моделью тематической области. Осуществляется отображение

f: D>T, что приводит к заданию на множестве T отношения сходства ф в виде графа G (Т, ф) [6;7].

В качестве тематического направления принимаются следующие виды подграфов:

1. подграф графа G (Т, ф), являющийся классом толерантности Gk (Т, ф') и удовлетворяющий условиям:

а), (8)

где

b) - максимальный полный подграф, в котором выходная степень вершины ti - kf(ti) равна входной степени вершины ti - bf(ti) и равна числу вершин подграфа - 1:

kf(ti) = bf(ti) = n-1 (9)

2. подграф графа G (Т, ф), полученный как транзитивное замыкание отношения сходства ф и удовлетворяющий условиям:

a) (10)

где (11)

b) - связная компонента графа G (Т, ф):

kf(ti) = bf(ti) = 2.

Таким образом, задача разбиения графа G (Т, ф) на подграфы эквивалентна задаче разбиения множества терминов Т на классы в соответствии с некоторым критерием сходства. Это позволяет рассматривать задачу выделения тематических направлений как задачу автоматической классификации и использовать для ее решения методы кластерного анализа [8;10;11].

В заключение следует отметить, что следующий этап - упорядочение терминов внутри выделенного направления с учетом естественного порядка расположения понятий при построении различных классификационных схем - иерархии.

Литература

1. Васина Е.Н., Козлова И.В. Методы структурно-тематического анализа документальной информации // Научные труды Вольного экономического общества России. - 2014. - Т. 186, №186. - С. 358-364.

2. Васина Е.Н., Козлова И.В. Построение тематических структур предметных областей // Современные проблемы науки и образования. 2013. №6. - С. 208.

3. Васина Е.Н., Козлова И.В. Проблема структуризации современных информационных ресурсов // Вестник Российского экономического университета им. Г.В. Плеханова. - 2014. - №4 (70). - С. 78-89.

4. Шрейдер Ю. А. Алгебра классификации // НТИ. Сер. 2. 1974. - №9. С. 3-6.

5. Гусакова С.М., Финн В.К. О формализации локального и глобального сходств // НТИ. Сер. 2. - 1986. - №6. - С.16-18.

6. Козлова И.В. О подходах к созданию карт науки // Международный научно-исследовательский журнал. - 2015. - №10-2 (41). - С. 76-77.

7. Козлова И.В. Структурно-тематический анализ документальных информационных ресурсов // Международный научно-исследовательский журнал. - 2016. - №1-2 (43). - С. 38-40.

8. Миркин Б.Г. Методы кластер-анализа для поддержки принятия решений. - М.: Изд. дом Национального исследовательского университета «Высшая школа экономики», 2011. - 88 с.

9. Оре О. Теория графов. - Изд. 2-е, стереотипное.- М.: Наука, 1980. - 336 с.

10. Сагинов Ю.Л., Феоктистова Н.А. Использование нейросетевой технологии для количественной оценки многопараметрических объектов и процессов в экономике и бизнесе // Вестник Российского экономического университета им. Г.В. Плеханова.- 2015. - №3-4 (12). - С. 42-57.

11. Телюк М.С. Доходы населения в соотношении с производством и потреблением региона // Вестник Российского экономического университета им. Г.В. Плеханова. Вступление. Путь в науку. - 2014. - №3-4. - С. 19-23.

Размещено на Allbest.ru

...

Подобные документы

  • Основные понятия теории графов. Матричные способы задания и упорядочение элементов. Применение графов для решения экономической и планово-производственной практики. Постановка, основные определения и алгоритм решения задачи о максимальном потоке.

    курсовая работа [544,2 K], добавлен 22.02.2009

  • Понятие классической транспортной задачи, классификация задач по критерию стоимости и времени. Методы решения задач: симплекс, северо-западного угла (диагональный), наименьшего элемента, потенциалов решения, теория графов. Определение и применение графов.

    курсовая работа [912,1 K], добавлен 22.06.2015

  • Рассмотрение решения задач с помощью методов: динамического программирования, теории игр, сетевого планирования и управления и моделирование систем массового обслуживания. Прикладные задачи маркетинга, менеджмента и других областей управления в экономике.

    реферат [315,8 K], добавлен 15.06.2009

  • Нахождение области допустимых значений и оптимумов целевой функции с целью решения графическим методом задачи линейного программирования. Нахождение оптимальных значений двойственных переменных при помощи симплексного метода и теории двойственности.

    контрольная работа [116,0 K], добавлен 09.04.2012

  • Пример решения типовой задачи оптимизации графическим методом. Получение оптимального плана выпуска продукции при помощи теории двойственности. Применение метода Леонтьева для построения баланса производства и распределения продукции предприятий.

    контрольная работа [2,2 M], добавлен 23.04.2013

  • Элементы теории массового обслуживания. Математическое моделирование систем массового обслуживания, их классификация. Имитационное моделирование систем массового обслуживания. Практическое применение теории, решение задачи математическими методами.

    курсовая работа [395,5 K], добавлен 04.05.2011

  • Анализ вопросов теории дифференциальных уравнений. Применение дифференциальных уравнений в экономике. Геометрический и экономический смысл производной, ее использование для решения задач по экономической теории. Определение числовой последовательности.

    контрольная работа [456,9 K], добавлен 19.06.2015

  • Применение линейного программирования для решения транспортной задачи. Свойство системы ограничений, опорное решение задачи. Методы построения начального опорного решения. Распределительный метод, алгоритм решения транспортной задачи методом потенциалов.

    реферат [4,1 M], добавлен 09.03.2011

  • Построение экономико-математической модели задачи, комментарии к ней и получение решения графическим методом. Использование аппарата теории двойственности для экономико-математического анализа оптимального плана задачи линейного программирования.

    контрольная работа [2,2 M], добавлен 27.03.2008

  • Основные понятия линейной алгебры и выпуклого анализа, применяемые в теории математического программирования. Характеристика графических методов решения задачи линейного программирования, сущность их геометрической интерпретации и основные этапы.

    курсовая работа [609,5 K], добавлен 17.02.2010

  • Критический путь в графе. Оптимальное распределение потока в транспортной сети. Задача линейного программирования, решаемая графическим методом. Несбалансированная транспортная задача. Численные методы решения одномерных задач статической оптимизации.

    курсовая работа [314,5 K], добавлен 21.06.2014

  • Алгоритм решения оптимизационной задачи линейного программирования (ЗЛП) – планирования производства симплекс методом и при помощи средства "Поиск решения" в Microsoft Excel. Описание работы, графический интерфейс и схема программы для решения ЗЛП.

    дипломная работа [2,3 M], добавлен 19.09.2010

  • Применение теории игр для обоснования и принятия решений в условиях неопределенности. Цель изучения систем массового обслуживания, их элементы и виды. Сетевые методы планирования работ и проектов. Задачи динамического и стохастического программирования.

    курсовая работа [82,0 K], добавлен 24.03.2012

  • Математическая формализация оптимизационной проблемы. Геометрическая интерпретация стандартной задачи линейного программирования, планирование товарооборота. Сущность и алгоритм симплекс-метода. Постановка транспортной задачи, последовательность решения.

    учебное пособие [126,0 K], добавлен 07.10.2014

  • Основы теории графов, отличительные характеристики и свойства ориентированных и не ориентированных графов. Маршруты, цепи, циклы в графах. Описание структуры программы, ее алгоритм и основные шаги. Особенности проведения диалога с пользователем.

    курсовая работа [687,2 K], добавлен 15.03.2011

  • Алгоритм минимизации функции нескольких переменных методами сопряженных градиентов и покоординатного спуска. Проведение сравнения их скорости работы, выделение основных достоинств и недостатков. Программа для проведения исследований градиентным методом.

    курсовая работа [427,4 K], добавлен 09.02.2013

  • Сущность и понятие сетевого анализа. Виды графов: сетевые, стрелочные, вершинные. Логические взаимосвязи в стрелочном графе. Анализ критического пути с применением графов. Выполнение проекта с минимальными издержками и метод построения прогнозного графа.

    книга [145,4 K], добавлен 09.03.2009

  • Задача выбора оптимальной (с точки зрения минимизации стоимости) прокладки транспортных коммуникаций из исходного пункта во все пункты назначения. Создание модели в терминах теории графов, описание волнового алгоритма, алгоритма Дейкстры, их особенности.

    курсовая работа [214,3 K], добавлен 30.09.2009

  • Основные понятия и критерии теории игр. Решение практических экономических задач с использованием механизма теории игр, а также создание необходимых рекомендаций к данным задачам. Научное обоснование снижения розничных цен и уровня товарных запасов.

    научная работа [184,7 K], добавлен 12.10.2011

  • Основные положения теории расписаний, постановка задачи минимизации средневзвешенного суммарного штрафа и методы ее решения. Разработка алгоритма решения данной задачи методами полного перебора и оптимальной вставки, составление программы на Delphi.

    курсовая работа [468,7 K], добавлен 10.04.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.