Информационные порталы, основанные на онтологиях, и визуализация научных сообществ
Особенности процесса разработки онтологии и информационного наполнения Web-порталов. Визуализация сетей соавторства на основе алгоритма кластеризации. Характеристики элементов одного сообщества. Стратегия комбинированного изображения отношений партономии.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 18.01.2018 |
Размер файла | 471,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Информационные порталы, основанные на онтологиях, и визуализация научных сообществ
З.В. Апанович
Ключевые слова и выражения: онтология, порталы знаний, визуализация научных сообществ, модулярность, иерархические жгуты ребер.
Процесс разработки онтологии и информационного наполнения Web-порталов является весьма длительным и трудоемким. В течение жизненного цикла такие порталы накапливают огромное количество бесценной информации, которую можно анализировать с различных точек зрения. Данная работа описывает расширение подсистемы визуализации информационного наполнения таких порталов новыми средствами анализа. Демонстрируется возможность извлечения научных сообществ из имеющихся данных и их визуализация.
Введение
Общепризнанным инструментом, обеспечивающим понимание больших объемов абстрактной информации, является визуализация информации с применением графовых моделей. Онтология и наполнение информационного портала могут быть представлены в виде графа, вершины которого изображают сущности, такие как классы, объекты и атрибуты онтологии, а ребра изображают отношения между этими сущностями. Просматривая изображение различных подграфов, генерируемых по описанию данной онтологии и информационного наполнения, разработчик системы может обнаружить как ошибки данных, возникшие при ручном вводе информации, так и ошибки проектирования, незаметные при просмотре текстовых форм.
По мере своего развития, информационные порталы накапливают все больше разнородной информации и становятся бесценным источником информации, пригодной для всевозможных форм анализа. При условии регулярного пополнения такого портала, он становится базой данных, анализ которой может иметь самостоятельный научный интерес. Поэтому возникает задача анализа развивающегося информационного наполнения с целью выявления различных закономерностей. Так, например, в случае информационного портала, посвященного некоторому научному направлению, весьма актуальной является задача наукометрического анализа его наполнения, в частности, выявления шаблонов сотрудничества между различными научными сообществами.
В данной работе демонстрируются новые возможности подсистемы визуализации наполнения информационных порталов, основанных на онтологиях [Apanovich, 2009], [Апанович, 2008]. Новые методы визуализации ориентированы на более глубокий анализ его информационного наполнения. В качестве тестовых данных использовалось информационное наполнение специализированного археологического портала знаний [Загорулько, 2006], построенного на основе системной классификации археологической науки [Холюшкин, 2000]. Археологический портал содержит на данный момент более 4 тысяч информационных объектов, связанных более чем 15 тысячами онтологических отношений.
1. Генерация и визуальный анализ сетей научного сотрудничества на основе отношения соавторства в публикациях
Археологический портал содержит, в частности, много информации о публикациях исследователей, работающих в разных областях археологии, и эта информация со временем расширяется. Помимо того, что эта информация представляет несомненный интерес для специалистов, работающих в области археологии, она может быть использована и для всевозможных наукометрических экспериментов. Ее можно анализировать, визуализируя сети соавторства, сети цитирования и ко-цитирования. Следует заметить, что исследование сетей соавторства является в настоящее время весьма популярной научной задачей. На смену изолированным исследователям приходят междисциплинарные команды с различными организационными структурами, выполняющие совместные научные проекты. Поскольку совместные исследования стали доминирующим и наиболее многообещающим способом производства высококачественного научного результата, структуры сотрудничества становятся тоже предметом исследования, прежде всего, в целях создания новых структур управления. Факт наличия совместных научных проектов, совместных публикаций, и мультидисциплинарных сетей сотрудничества указывает на современный способ производства научного знания [Wuchty, 2007], [Jones, 2008]. Сети соавторства изучаются с таких точек зрения, как распределение степеней [Barabasi, 2005], извлечение научных сообществ [Newman, 2004], предсказание будущих партнерских отношений [Huang, 2008] и др.
Сеть соавторства - это граф, в котором каждый автор изображается вершиной, а ребро соответствует факту наличия совместной публикации между двумя авторами. В случае если публикация имеет n авторов, создается клика, соединяющая всех авторов одной публикации. Поскольку авторы могут иметь несколько совместных публикаций, каждое ребро, соединяющее научных исследователей, имеет вес, равный количеству совместных публикаций. Заметим, что в тестовой онтологии, с которой осуществлялись эксперименты, отношения соавторства в явном виде не существовало. В то же время, отношение соавторства, как и многие другие отношения, могут быть описаны при помощи суперпозиции отношений, уже имеющихся в онтологии. Например, в тестовой онтологии имеется отношение «Автор-Публикации», связывающее классы «Исследователь» и класс «Публикация». Поэтому отношение соавторства может быть описано как композиция отношения «Автор-Публикации» и его инверсии. Средства, позволяющие описывать суперпозицию отношений, были встроены во внутренний язык подсистемы визуализации. Это позволяет нам строить граф соавторства на основе информации о научных публикациях и их авторах, имеющейся в наполнении портала.
информационный портал партономия кластеризация
2. Анализ и визуализации сетей соавторства на основе алгоритма кластеризации
Как правило, анализ сетей соавторства начинается с извлечения научных сообществ. Следует сказать, что стандартные силовые алгоритмы [Fruchterman, 1999], [Kamada, 1989] мало пригодны для визуализации научных сообществ, поскольку они стремятся разместить все вершины графа на одинаковом «идеальном» расстоянии. Нам нужен алгоритм, который позволял бы визуально выделять группы исследователей, сильно связанных между собой, и слабо связанных с другими группами. Стандартным способом выделения научных сообществ являются различные методы кластеризации. В нашей системе визуализации был выбран и реализован алгоритм, использующий для оценки качества кластеризации меру модyлярности [Newman, 2004].
Процесс разбиения на компоненты применяется к каждой связной компоненте сгенерированной сети соавторства. Он осуществляется при помощи удаления ребер, имеющих наибольшую реберную промежуточность. Для оценки реберной промежуточности подсчитываются все кратчайшие пути между всеми парами вершин, и определяется, сколько кратчайших путей проходит через каждое ребро. Затем выбирается ребро с наибольшим значением промежуточности и удаляется из графа. Если в результате удаления очередного ребра произошло увеличение количества компонент связности, для нового разбиения подсчитывается модулярность. При оценке модулярности учитываются все ребра исходного графа. Если новое найденное значение модулярности выше, чем прежнее, то это состояние запоминается, и процесс удаления ребер продолжается до тех пор, пока разница между текущим значением модулярности и наилучшим значением не станет больше чем Параметр_останова. В этот момент процесс кластеризации завершается и компоненты, соответствующие наилучшему найденному значению модулярности выдаются в качестве результата кластеризации.
Следующим этапом является построение изображения найденных научных сообществ. Мы хотим построить такое изображение, чтобы в нем легко просматривались найденные сообщества, а также и связи между этими сообществами. Для построения такого изображения используется двухуровневый алгоритм размещения. Сначала осуществляется глобальное размещение графа, вершинами которого являются найденные компоненты. В процессе размещения считается, что идеальная длина ребра, соединяющего компоненты ci и cj, пропорциональна величине eij, количеству связей между ними.
Детальное изображение каждого сообщества строится тоже при помощи силового алгоритма. Но на этом этапе все вершины одной группы располагаются примерно на одинаковом расстоянии друг от друга. Это идеальное расстояние существенно меньше того, что используется при глобальном размещении. Наконец, детальное изображение каждой компоненты подставляется в глобальное размещение компонент и заново отрисовываются все межкомпонентные ребра. На Рис. 1 показан пример изображения наибольшей связной компоненты выделенной из сети соавторства, насчитывающей 2090 авторов. Эта связная компонента имеет 370 вершин и 1690 ребер. На Рис. 1(а) показано изображение этой компоненты при помощи стандартного алгоритма Фрюхтермана-Рейнгольда. На Рис. 1(б) показано изображение этой же компоненты связности при помощи алгоритма, реализованного в нашей системе. В результате применения процедуры кластеризации она была разбита на 35 сообществ. Самое большое сообщество насчитывает 50 авторов. В то же время имеются сообщества, насчитывающие 2-3 исследователя. Обычно каждое такое сообщество формируется вокруг исследователя, имеющего максимальное количество публикаций в данном сообществе. Для того чтобы пользователь мог легко идентифицировать выделенные компоненты, ребра, соединяющие вершины внутри компонент, изображены более широкими линиями чем, ребра, соединяющие вершины разных компонент.
(а) (б)
Рис. 1. (а) Изображение сети сотрудничества обычным силовым алгоритмом. (б) Визуализация результатов извлечения сообществ.
С нашей точки зрения, основным недостатком такой визуализации является ее неполный характер. Ведь специализированные информационные порталы содержат, помимо библиографической, огромное количество дополнительной информации: о научных организациях и разделах науки, в которых работают исследователи, о предметах исследования и различных видах научной деятельности, таких, например, как научные экспедиции и т.д. Поэтому весьма интересной видится задача сопоставления отношения сотрудничества с другими подструктурами, которые можно выделить в информационном наполнении портала.
При выборе на изображении сообществ мышью любой из вершин, идентифицируется кластер, которому принадлежит выбранная вершина. Затем по графу онтологических связей объектов просматриваются все связи вершин-исследователей, принадлежащих этому кластеру с целью выделения общих характеристик исследователей, попавших в один кластер. Количество общих характеристик упорядочивается по убыванию и выдается пользователю. Например, на Рис. 2 показаны общие свойства сообщества, выделенного прямоугольником на Рис. 1. Сообщество состоит из 16 исследователей. Определяющим свойством, по которому был сгенерирован этот кластер, является то, что все указанные исследователи являются авторами одной электронной публикации «Виртуальный музей СО РАН». В силу этого свойства, в сети соавторства была сгенерирована клика, связывающая всех этих исследователей. Следует отметить, что человеческий наблюдатель, знакомый с предметной областью, сразу бы заметил, что все члены этой группы работают в одном институте. Но в данных, внесенных в базу данных информационного портала этой информации нет. В базе данных только для двух человек из этой группы указано место работы, хотя все участники этого кластера работают в одной организации.
Рис. 2. Общие характеристики элементов одного сообщества.
Еще один метод визуализации сетей сотрудничества в комбинации с другими данными, имеющимися в наполнении портала, описан в следующем разделе. Он использует для построения изображения сетей соавторства иерархические жгуты ребер [Holten, 2006].
3. Применение иерархического связывания ребер для визуализации и анализа отношения сотрудничества между исследователями
В процессе экспериментов с наполнением информационных порталов мы заметили, что они содержат большое количество отношений партономии, задающих иерархию объектов. К таким отношениям относятся Метод-Исследования-Включает, Организация-Включает Место-Включает, и др. Поэтому была реализована стратегия комбинированного изображения отношений партономии и любых других отношений, имеющихся в онтологии. Эта же стратегия была использована и при визуализации сетей сотрудничества. Она реализована следующим образом. Отношение партономии, связь с которым мы хотим исследовать, изображается в виде дерева. Изображение этого дерева строится при помощи радиального, либо кругового алгоритма. Затем координаты вершин построенного дерева используются в качестве контрольных точек, через которые проводится каждое ребро отношения сотрудничества. Таким образом, каждое ребро отношения сотрудничества представляет собой многоугольный путь по дереву, описываемый последовательностью точек P0, P1,…, PN-1. Зная эти контрольные точки, можно построить кривую, изображающую ребро графа сотрудничества по формуле:
,
где N - это количество контрольных точек,
i - номер контрольной точки, i {0, . . . , N ?1},
Pi - позиция i-ой контрольной точки
- сила связывания, [0, 1].
Например, на Рис. 3 изображено отношения соавторства между научными сотрудниками, работающими в различных географических областях. В качестве основы изображения используется круговое изображение дерева, соответствующего отношению Место-включает. Маленькие черные окружности изображают географические объекты, такие как страна, город, поселок, и т.д., прямолинейные ребра соответствуют отношению Место-включает. То есть, наличие ребра между объектом Россия и объектом Иркутск соответствует тому, что Иркутск находится в России. Маленькие светлые окружности изображают отдельных научных сотрудников, а прямолинейные ребра, соединяющие вершины-сотрудники с вершинами-местами соответствуют факту проживания определенного научного сотрудника в той или иной местности.
Рис. 3. Отношения соавторства между научными сотрудниками, работающими в различных географических областях.
Светлые криволинейные шлейфы изображают отношения соавторства между исследователями из разных городов, а более тонкие и более темные криволинейные шлейфы показывают отношения сотрудничества одного выбранного исследователя (Холюшкин). Видно, что у него есть соавторы в Новосибирске, Санкт-Петербурге, Красноярске и др., но нет соавторов в Москве. Это изображение является также примером того, как выглядят недоработки при введении данных. Например, все российские города располагаются на окружности, центром которой является вершина с названием Россия. Но город Москва, расположен по периметру другой окружности. Значит, в тестовых данных не хватает информации о том, что Москва находится в России. Таким же способом можно исследовать зависимость отношения сотрудничества между исследователями, работающими в разных разделах науки, в различных научных организациях, применяющих разные методы исследования, и т.д.
Заключение
В данной работе были продемонстрированы новые средства анализа информационного наполнения порталов знаний, встроенные в подсистему визуализации. Эти методы были опробованы на примере тестовых данных, описывающих знания по археологии, компьютерной лингвистике, а также сайта кафедры Программирования ММФ, основанного на онтологии. Опытная эксплуатация подсистемы визуализации показала, что она может быть полезна как на этапе разработки онтологии информационного портала, и так в процессе всего жизненного цикла портала.
В ближайшее время планируется развитие этих исследований по нескольким направлениям. Во-первых, планируется развитие входного языка подсистемы визуализации в направлении максимального приближения к языку OWL. Планируется также усовершенствовать алгоритм визуализации сообществ с тем, чтобы размер изображения каждого сообщества был пропорционален количеству элементов в нем. Предполагается также пополнить библиотеку алгоритмов нашей подсистемы несколькими новыми алгоритмами, в частности, планируется реализация алгоритма, показывающего эволюцию данных во времени. При разработке первой версии подсистемы визуализации использовалась свободно распространяемая библиотека классов Java, называющаяся JUNG [Madahain].
Список литературы
1. [Апанович, 2008] Апанович З.В. Методы навигации при визуализации графов// Вестник НГУ. 2008. Том 6, выпуск 3.
2. [Загорулько, 2006] Загорулько Ю.А., Боровикова О.И., Холюшкин Ю.П. Построение предметной онтологии для археологического портала научных знаний//Информационные технологии в гуманитарных исследованиях. 2006. N10.
3. [Холюшкин, 2000] Холюшкин Ю.П., Гражданников Е.Д. Системная классификация археологической науки (элементарное введение в науковедение) - Новосибирск, 2000.
4. [Apanovich, 2009] Apanovich Z. V., Vinokurov P. S., Elagin V. А. An approach to visualization of knowledge portal content// Bulletin of NCC . 2009. Issue 29.
5. [Barabasi, 2005] Barabasi, A.-L. The origin of bursts and heavy tails in human dynamics// Nature. 2005. № 435.
6. [Fruchterman, 1999] Fruchterman T. M. J., Reingold E. M. Graph Drawing by Force-Directed Placement Software //Practice and Experience , 1991, 11(21).
7. [Holten, 2006] Holten D. Hierarchical edge bundles: Visualization of adjacency relations in hierarchical data//Transactions on Visualization and Computer Graphics. 2006. №5 (12).
8. [Huang, 2008] Huang J. et al. Collaboration over time: characterizing and modeling network evolution// Proceedings of the international conference on Web Search and Web Data Mining. 2008.
9. [Jones, 2008] Jones B. F. Wuchty S., Uzzi B. Multi-University Research Teams: Shifting Impact, Geography, and Stratification in Science// Science 322 (5905). 2008.
10. [Kamada, 1989] Kamada, T., Kawai, S. An algorithm for drawing general undirected graphs. // Information Processing Letters. 1989. № 31.
11. [Madahain] Madahain O., Fisher D., Smyth P., White S., and Boey Y. Analysis and visualization of network data using jung. //Journal of Statistical Software, VV
12. [Newman, 2004] Newman M. E. J., Girvan M. Finding and evaluating community structure in networks// Physical Review E, 69. 2004.
13. [Wuchty, 2007] Wuchty S. Jones B. Uzzi B. The Increasing Dominance of Teams in Production of Knowledge.// Science Express. 2007. № 5827(316).
Размещено на Allbest.ru
...Подобные документы
Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.
курсовая работа [1,8 M], добавлен 30.06.2017Генерирование на основе имеющихся карт Кавказа ландшафта на базе алгоритма Diamond-Square. Визуализация получившихся карт высот с помощью библиотек glut и glaux OpenGL. Суть алгоритма Diamond-Square, этапы его реализации. Скриншоты созданной программы.
курсовая работа [1,4 M], добавлен 27.05.2013Анализ средств визуализации. Разработка программы-расширения для визуализатора инженерных и научных расчетов Compaq Array Visualizer на языке Фортран. Оценка экономической эффективности и конкурентоспособности созданного программного обеспечения на рынке.
дипломная работа [335,4 K], добавлен 10.09.2010Характеристика программных геномных средств для визуализации, которые облегчают анализирование задач и позволяют исследовать, изучать, толковать и управлять своими данными. Визуализация секвенирования данных. Изучение возможностей геномных браузеров.
реферат [37,9 K], добавлен 11.11.2010Совершенствование процессов обмена информацией между физическими и юридическими лицами в помощью сетей Internet и Intranet. История развития геоинформационных систем. Обработка кадастровой информации: анализ данных и моделирование, визуализация данных.
реферат [24,1 K], добавлен 22.05.2015Задача о движении однородного плоского тела круглой формы в пространстве по наклонной плоскости. Давление распределено по закону Герца. Результаты решения систем, а также их наглядная визуализация в математическом пакете Maple 11 и Macromedia Flash 8.
дипломная работа [2,8 M], добавлен 15.06.2013Развитие корпоративных информационных порталов. Классификация порталов в сетях, преимущества, получаемые при использовании. Архитектура, структура и технологические аспекты создания порталов. Анализ характеристик информационного портала AxiomPortal.
дипломная работа [756,9 K], добавлен 23.07.2011Информационное обеспечение научных исследований в университете. Разработка онтологии в области управления. Создание глоссария по менеджменту, списка персоналий. Семантическая разметка массива документов. Методика работы с базой научных публикаций.
дипломная работа [3,5 M], добавлен 13.01.2015Бесплатная среда разработки программного обеспечения с открытым исходным кодом для компилятора Free Pascal. Почему Lazarus такой популярный. Корректность введенных данных. Использование основных методов визуализации в среде программирования Lazarus.
курсовая работа [695,5 K], добавлен 19.04.2013Платформа Unity 3D как средство разработки компьютерных деловых игр. Рассмотрение реализации взаимодействия между подсистемой проведения деловых игр и модулем визуализации. Формирование игровых уровней на примере компьютерной игры "Проезд перекрестка".
дипломная работа [2,8 M], добавлен 22.08.2017Показатели, характеризующие корпоративные порталы в сетях, их историю и классификацию. Сущностные характеристики корпоративного информационного портала AxiomPortal. Microsoft SharePoint Portal Server как инструмент для создания корпоративного портала.
дипломная работа [3,0 M], добавлен 22.07.2011- Визуализация профиля пользователя социальной сети на основе обработки семантического описания данных
Анализ существующих музыкальных сетей, профиля музыкального файла. Технологии и возможности Web 2.0. Анализ алгоритмов в Data Mining. Структура социальной сети. Набор графических элементов, описывающий человека в зависимости от прослушиваемой музыки.
дипломная работа [3,7 M], добавлен 20.04.2012 Создание, настройка камер, настройки основанных параметров визуализации и использования различных специальных эффектов в графическом пакете 3ds Max 2008. Особенности интерфейса программы. Типы специальных эффектов и их применение. Добавление заднего фона.
курсовая работа [2,1 M], добавлен 03.06.2013Наглядное представление массивов различной информации в компьютерной графике. Типы визуализации: схематическая, концептуальная, стратегическая, графическая, комбинированная. Виды сравнения данных: покомпонентное, позиционное, временное, частотное.
контрольная работа [1,4 M], добавлен 20.12.2015Обзор существующих решений на основе открытых данных. Выбор социальных сетей для извлечения данных. Ограничение геолокации сообщений из социальных сетей. Разработка формата хранения. Визуализация собранных данных методом теплой карты. Архитектура системы.
дипломная работа [1,0 M], добавлен 18.11.2017Особенности и преимущества языка C#. Алгоритмы поиска маршрутов в графе. Разработка вычислительной системы транспортной логистики на языке C#. Выбор среды разработки, визуализация транспортной сети. Задание условий поиска и пример работы алгоритма.
дипломная работа [457,1 K], добавлен 24.06.2015Autodesk 3ds Max как полнофункциональная профессиональная программная система для создания и редактирования трёхмерной графики и анимации. Особенности моделирования персонажей. Создание скелета и настройка глаз героя. Анимация персонажей, визуализация.
дипломная работа [11,9 M], добавлен 12.06.2012Компьютерная графика и её виды. Векторный графический редактор CorelDraw. Создание изображения панели осциллографа, разработка наглядного изображения. Особенности графических редакторов, изображение панели осциллографа в программе Adobe Illustrator.
курсовая работа [4,2 M], добавлен 04.05.2023Принцип формирования дискретной трехмерной модели объекта съемки лазерным сканером. Типы лазерных сканеров по принципу измерений расстояний. Взаимное и внешнее ориентирования облаков точек лазерного сканирования. Визуализация трехмерных моделей.
презентация [5,3 M], добавлен 11.10.2014Описание возможностей и функций программы MS Excel. Визуализация данных, оформление таблицы, фомат и диапазон ячеек в MS Excel. Описание пошагового создания диаграммы в MS Excel и настройка ее параметров. Техника безопасности при работе на компьютере.
курсовая работа [998,7 K], добавлен 27.08.2010