Объектное представление электронных текстовых документов
Рассматривается проблема формализации содержимого электронных текстовых документов. Охарактеризованы объекты контейнеров и атомарных объектов. Исследование особенностей отображения топологического и информационного аспектов содержимого документа.
Рубрика | Литература |
Вид | статья |
Язык | русский |
Дата добавления | 19.06.2018 |
Размер файла | 79,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
УДК 519.7
ОБЪЕКТНОЕ ПРЕДСТАВЛЕНИЕ ЭЛЕКТРОННЫХ ТЕКСТОВЫХ ДОКУМЕНТОВ
А.Н. Гвоздинский, В.А. Губин
Рассматривается проблема формализации содержимого электронных текстовых документов. Документы представляются в виде совокупности объектов двух видов - объектов контейнеров и атомарных объектов. Каждая группа объектов отражает либо топологический, либо информационный аспект содержимого документа.
электронный текстовый документ топологический
УДК 519.7
Об'єктне подання електронних текстових документів /А.М. Гвоздинський, В.О. Губін //АСУ та прилади автоматики. 2007. Вип.. 00. С. 000-000.
В роботі запропонований підхід до формалізації вмісту електронних текстових документів. При цьому документи подаються у вигляді сукупності об'єктів двох видів - об'єктів контейнерів та атомарних об'єктів. Зазначається, що сукупність об'єктів контейнерів відображає топологічний, а сукупність атомарних об'єктів - інформаційний аспект вмісту документа.
Іл. 2. Бібліогр.: 2 назви.
UDC 519.7
Objective representation of electronic text documents /A. Gvozdinski, N. Yakimova, V. Gubin //Management Information System and Devices. All-Ukr. Sci. Interdep. Mag 2007, N. 00 P. 000-000.
In work the approach to formalization of contents of electronic text documents is offered. Thus documents move in the form of set of objects of two kinds - objects of containers and atomic objects. It is marked, that set of objects of containers displays topological, and set of atomic objects - information aspect of the contained document.
Fig. 2. Refs.: 2 items.
Актуальность исследования
Бурное развитие вычислительной техники, сети Internet, приход компьютеров практически в каждый офис, в каждый дом порождает тенденцию увеличения удельного веса представления информации в электронном виде. С развитием концепции электронного документооборота на первый план выходят электронные документы как носители и источники информации, а документы на бумаге отходят на второй план, уступая свои позиции особенно в тех областях, где требуется высокий уровень мобильности и оперативности.
С другой стороны, бурное развитие сети Internet и ее общедоступность сделали практически неограниченным доступный информационный массив. При этом большая часть этого массива изначально не предполагала возможность автоматизированной обработки. Это породило необходимость перехода от методов обработки документов на бумажных носителях к развитию и совершенствованию технологий автоматизированной обработки электронных источников информации.
Данные обстоятельства привели к возникновению и развитию технологии Text Mining - современного направления интеллектуального анализа и обработки текстовых данных. Данная технология, являясь одним из направлений Data Mining, позволяет решать разнообразные задачи, возникающие при анализе больших электронных массивов неструктурированной информации.
Отличительной особенностью современных подходов в Text Mining является то, что единицей анализа содержимого электронных текстовых документов является слово. При этом игнорируется то обстоятельство, что документы определенного класса могут состоять из текстовых фрагментов, обособленных относительно других фрагментов и представляющих ценность как некоторая неделимая единица. Для некоторого класса задач, в частности, для задач идентификации данных в текстовых документах, это может являться достаточно существенным недостатком. Настоящая работа предлагает подход, устраняющий этот недостаток.
Целью исследования является формализация содержимого электронных текстовых документов [1]. При этом документы представляются в виде совокупности объектов двух видов - объектов контейнеров и атомарных объектов. Первая группа объектов отражает топологию документа, вторая - его информационное содержимое. Также важно, чтобы о каждом обособленном текстовом фрагменте документа сохранялась информация о контексте его появления.
Задачи исследования следующие: разработка спецификации объектов контейнеров и атомарных объектов; разработка методики определения того, какие фрагменты исходного документа необходимо отнести к объектам того или иного типа и какие отношения между этими объектами могут быть установлены.
Объекты каждой группы характеризуются некоторой совокупностью свойств, значения которых отражают особенности конкретного объекта и его отношения с другими объектами. Причем, каждому обособленному текстовому фрагменту документа соответствует некоторый атомарный объект, ключевым свойством которого является значение соответствующей текстовой строки.
Модель объектного представления документов
Пусть имеется исходное пространство электронных текстовых документов Щ, содержащее документы D1, D2, … , DN. В этом случае Щ можно интерпретировать как множество, содержащее элементы D1, D2, … , DN, где N - количество документов в пространстве Щ. Таким образом:
Щ = { D1, D2, … , DN}.
Предполагаем, что документы, входящие в это пространство, обладают структурой. Т.е. существует некоторая внутренняя разметка документа. Данное обстоятельство позволяет представить документ как набор образующих его элементов, которые могут иметь те или иные свойства, отличающие их от других элементов. К элементам можно отнести абзацы, таблицы, нумерованные и ненумерованные списки и т.п. Примерами документов, обладающих внутренней структурной разметкой, могут быть документы, представленные в формате HTML, DOC, RTF и в других аналогичных форматах.
Если каждый элемент документа или часть элемента интерпретировать как объект, то документ можно представить в виде неупорядоченного множества объектов:
Di = {и1, и2, … , иni}, i = 1, … ,N,
где, ni - количество объектов в i - ом документе.
Необходимо добиться того, чтобы данное разбиение отражало и топологию и содержимое документа. Для этого вводятся два типа объектов: объекты-контейнеры и атомарные объекты. К объектам-контейнерам отнесем сам документ, абзац, таблицу, строку таблицы, ячейку таблицы, нумерованный и ненумерованный список, элемент списка и т.п. К атомарным объектам отнесем содержимое абзаца, выделенную тем или иным способом часть содержимого абзаца, содержимое ячейки таблицы, содержимое элемента списка и т.п. При этом предполагается, что содержимое атомарных объектов не может быть пустым или подвергнуто дальнейшему разбиению. Из такого определения объектов-контейнеров и атомарных объектов следует, что объекты-контейнеры могут содержать один или более других объектов-контейнеров или один или более атомарных объектов.
Обозначим объекты-контейнеры как ц и атомарные объекты как ш. В этом случае каждый документ пространства Щ может быть представлен в следующем виде:
Di = {ц1, ц2, … , цpi, ш1, ш2, … , шli}, i = 1, … ,N,
где, pi - количество объектов-контейнеров, а li - количество атомарных объектов в i-ом документе, или
Di = {Цi, Шi}, i = 1, … ,N,
где Цi = {ц1, ц2, … , цpi} а Шi = {ш1, ш2, … , шli}.
При этом объекты-контейнеры могут находиться между собой в отношении владения или следования. Отношение следования между объектами-контейнерами отражает взаимное расположение различных элементов в документе. Отношение владения отражает вложенность одних элементов в другие. Например, список может включать в качестве своего элемента другой список (случай вложенных списков), таблица состоит из строк и т.п. Особенностью объектов-контейнеров является отсутствие в них текстового содержимого.
Т.о. совокупность объектов-контейнеров Цi = {ц1, ц2, … , цpi} отражает топологию документа.
Ключевой особенностью атомарных объектов является наличие у них в качестве одного из свойств текстовой строки, являющейся структурно обособленным фрагментом текстового содержимого документа.
Атомарные объекты могут находиться между собой в отношении ассоциации. Например, обособленные фрагменты одного и того же абзаца, элемент списка более высокого уровня с каждым простым элементом вложенного списка, содержимое следующих друг за другом абзацев и т.п.
Т.о. совокупность атомарных объектов Шi = {ш1, ш2, … , шli} отражает его текстовое содержимое.
Предполагается, что контекст данных и значение данных в анализируемых документах соответствуют атомарным объектам, находящимся между собой в отношении ассоциации.
Исходя из логики определения объектов-контейнеров и атомарных объектов, можно сделать вывод, что между собой эти объекты могут находиться только в отношении владения.
Схематически сценарий преобразования представлен на рис. 1.
Рис. 1. Преобразование с использованием специализированных анализаторов.
В идеале, для каждого существующего формата представления электронных текстовых документов необходимо разработать свой оригинальный анализатор. Но, учитывая, что практически все популярные форматы снабжены инструментальными средствами преобразования соответствующих документов в формат HTML, достаточно разработать HTML-анализатор. При этом схема преобразования может выглядеть так, как показано на рис. 2.
Необходимо, чтобы в HTML-анализаторе решались следующие задачи:
1. Первичная обработка исходного HTML-документа. В частности, исправление грамматических ошибок.
3. Представление топологии входного документа HTML-документа в виде совокупности объектов-контейнеров.
4. Представление текстового содержимого входного документа HTML-документа в виде совокупности атомарных объектов.
5. Установление отношений между объектами и идентификация их свойств.
Рис. 2. Преобразование с использованием только HTML-анализатора.
В процессе объектного представления необходимо идентифицировать ряд свойств объектов-контейнеров и атомарных объектов.
У объектов контейнеров: тип контейнера, объект-владелец, предыдущий контейнер, следующий контейнер.
У атомарных объектов: соответствующий текстовый фрагмент, форматирование, контейнер-владелец,
Выводы
В ходе работы разработан оригинальный подход формализации содержимого электронных текстовых документов. В основе этого подхода лежит объектный подход, а сами документы представлены как совокупности атомарных объектов и объектов контейнеров. Данная модель позволяет интерпретировать некоторые обособленные фрагменты документа как самостоятельные и неделимые единицы анализа.
Данный подход позволяет также получить некоторое универсальное представление для документов с различным исходным форматом и упрощает задачу идентификации данных, содержащихся в текстовых документах.
Научная новизна. Предложен подход к формализации содержимого электронных текстовых документов.
Практическая значимость. Использование предложенной в работе модели позволит существенно упростить задачу идентификации данных в электронных текстовых документах определенного класса [2]. В частности, в документах, в которых объективно присутствуют обособленные контекст и значение данных, но отсутствуют формальные признаки, указывающие на то, что есть что.
Список литературы
1. Гвоздинский А.Н., Губин В.О., Якимова Н.А. О природе слабоструктурированных источников информации // Труды 10-й Международной научной конференции «Теория и техника передачи, приема и обработки информации». Туапсе. 2004. с. 68-69. 2. Гвоздинский А.Н., Губин В.О., Якимова Н.А. О проблеме поиска информации в слабоструктурированных источниках // Труды 11-й Международной научной конференции «Теория и техника передачи, приема и обработки информации». Туапсе. 2005. с. 72-73.
2. Гвоздинский Анатолий Николаевич, канд. техн. наук, профессор кафедры искусственного интеллекта ХНУРЭ. Научные интересы: оптимизация процедур принятия решений в сложных системах управления. Адрес: Украина, 61166, Харьков, ул. акад. Ляпунова 7, кв. 9, тел. 702-38-23.
3. Губин Вадим Александрович, преподаватель кафедры искусственного интеллекта ХНУРЭ. Научные интересы: интеллектуальный анализ текстовых данных. Адрес: Украина, 61053, Харьков, ул. Гвардейцев-Широнинцев 23, кв. 286, тел. 710-64-12.
Размещено на Allbest.ru
...Подобные документы
Изучение основных групп пользователей библиотеки, определение ее функций и номенклатуры услуг. Знакомство с этапами обработки и каталогизации документов. Характеристика системы картотек. Ознакомление с системой электронных информационных ресурсов.
отчет по практике [45,3 K], добавлен 18.04.2015Создание первой электронной библиотеки. Характеристика, концепция, особенности и основные функции электронных библиотек. Фонды электронной библиотеки IQlib и пополнение их за счет книг. Виртуальные интернет библиотеки, форматы предоставления документов.
реферат [18,6 K], добавлен 28.10.2010Категория интертекстуальности в системе текстовых категорий. Анализ создания основных приёмов и групп межтекстовых связей. Христианская сказка как литературный жанр. Исследование межтекстовых связей в сказке И. Литвак "Тридевятое царство и золотой рожок".
курсовая работа [46,8 K], добавлен 17.04.2013Стилистика как наука о языке. Язык и стиль служебных и распорядительных документов. Пример составления личных документов: доверенность, заявление. Понятие "функциональный стиль" и его характеристики. Стилистическое использование фразеологических единиц.
контрольная работа [32,2 K], добавлен 18.12.2010Раскрытие художественного мастерства писателя в идейно-тематическом содержании произведения. Основные сюжетно-образные линии повести И.С. Тургенева "Вешние воды". Анализ образов главных и второстепенных персонажей, отраженных в текстовых характеристиках.
курсовая работа [28,4 K], добавлен 22.04.2011Понятие "концепт" в лингвистических исследованиях. Концепт как единица картины мира: структура и виды. Вербализация концепта "сон" в поэзии Ф. Сологуба на основе текстовых ассоциатов по направлениям ассоциирования. Поэтическая картина мира Ф. Сологуба.
дипломная работа [359,8 K], добавлен 16.05.2015- Функционирование устойчивых словосочетаний с цветовыми прилагательными в русском и английском языках
Феномен цвета, особенности его восприятия человеком и отражение в речи. Структура и семантика устойчивых словосочетаний с цветовыми прилагательными в языке русских и английских электронных СМИ. Проблема определения термина "устойчивое словосочетание".
дипломная работа [223,1 K], добавлен 26.06.2010 Анализ цветовых концептов в дневникой прозе Цветаевой на основе теории текстовых ассоциаций: красный и белый цвет связаны с революционными реалиями того времени. Раскрытие механизма смыслового наполнения ассоциативно-смыслового поля данных концептов.
статья [30,5 K], добавлен 23.07.2013Исследование на основе документальных источников, воспоминаний современников и документов личного происхождения (дневников, писем, записей и проч.) сведений о личностях близких Ю.П. Лермонтову. Отражение образа отца, матери, бабушки в творчестве поэта.
реферат [45,5 K], добавлен 19.02.2010Внешние черты эпохи в романе Д. Фаулза "Подруга французского лейтенанта". Нравы эпохи, представленной автором в романе. Авторские приемы, с помощью которых Д. Фаулз изображает викторианство в романе. Функция комментариев и текстовых отступлений.
дипломная работа [52,2 K], добавлен 25.02.2012Прозаик, поэт, автор знаменитых "Колымских рассказов", одного из самых поразительных художественных документов 20 века, ставших обвинительным актом советскому тоталитарному режиму, один из первооткрывателей лагерной темы.
биография [11,6 K], добавлен 10.07.2003Исследование комиксов как современного явления культуры. Анализ характерных черт присущих комиксам. Изучение их истоков и особенностей распространения. Классификация комиксов и их описание на примере японских манга. Особенности японских комиксов.
доклад [36,5 K], добавлен 18.04.2019Изучение жанровых и формальных аспектов поэзии В.П. Вишневского и особенности реализации категории комического в его творчестве. Тематика и проблематика произведений, комплексный анализ лингвистических, стилистических особенностей идиостиля Вишневского.
курсовая работа [52,2 K], добавлен 11.03.2013Способы выявления особенностей использования пословиц в творчестве Н. Гоголя. Характеристика повестей русского писателя "Вий", "Майская ночь или утопленница". Анализ теоретических аспектов использования пословиц в произведениях русских писателей.
дипломная работа [56,2 K], добавлен 31.01.2014Последовательность поиска документальных источников информации. Организация справочно-информационной деятельности. Работа с источниками информации. Техника изучения документов. Методы изучения документальных источников. Способы фиксирования информации.
курсовая работа [95,7 K], добавлен 21.07.2009Рассмотрение теоретических аспектов работы над произведениями различных жанров. Изучение психологических особенностей восприятия произведений различного жанра учениками 5–6 классов. Методические рекомендации по анализу сказки, как литературного жанра.
курсовая работа [43,2 K], добавлен 26.02.2015История рождения музея В. Астафьева. Начало 80-х годов ХХ в., идея создания литературного музея снова поднимается, оживление литературной жизни. Структура и научная деятельность музея. Развитие музея. Пополнение фондов новыми документами, рукописями.
реферат [996,1 K], добавлен 12.11.2008Человек и шмель в стихотворении И.А. Бунина как два разных мира. Превращения в детских произведениях как сказочная условность. Представление насекомых в виде людей с целью выявления особенностей сознания людей в романе В. Пелевина "Жизнь насекомых".
курсовая работа [42,5 K], добавлен 02.12.2014Исследование информационного пространства по заявленной теме. Черты романтизма в поэме М.Ю. Лермонтова "Демон". Анализ данной поэмы как произведения романтизма. Оценка степени влияния творчества Лермонтова на появление произведений живописи и музыки.
курсовая работа [41,0 K], добавлен 04.05.2011Анализ семантического пространства в прозе Н.В. Гоголя с точки зрения концептуального, денотативного и эмотивного аспектов. Пространственно-временная организация художественной реальности в произведениях автора. Слова-концепты художественного мира.
курсовая работа [66,1 K], добавлен 31.03.2016