Методы смысловой обработки текстовой информации в электронных коллекциях и репозитариях

Изучение проблемы отсутствия качественного инструментария для анализа огромного объема неструктурированной текстовой информации, содержащейся в цифровых репозитариях систем e-Learning и электронных библиотеках, на тематических сайтах в Интернет.

Рубрика Журналистика, издательское дело и СМИ
Вид статья
Язык русский
Дата добавления 21.09.2018
Размер файла 1,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УДК 004.91

ББК 78.375.0

Методы смысловой обработки текстовой информации в электронных коллекциях и репозитариях

Канищева О. В.

Национальный технический университет

"Харьковский политехнический институт",

Украина, г. Харьков

Анотація. У даній статті наведено огляд різних завдань електронної обробки текстової інформації, які існують у сфері електронних бібліотек. Показано роль бібліотеки як джерела знань у сучасній системі освіти.

Ключові слова: семантичний аналіз, електронні бібліотеки, електронні каталоги, репозитарії.

Аннотация

В данной статье приводится обзор различных задач электронной обработки текстовой информации, которые существуют в сфере электронных библиотек. Показана роль библиотеки как источника знаний в современной системе образования.

Ключевые слова: семантический анализ, электронные библиотеки, электронные каталоги, репозитарии.

Annotation

This article provides an overview of the various problems of electronic text processing that exist in the field of digital libraries. The role of the library as a source of knowledge in the modern education system.

Key words: semantic analysis, electronic libraries, electronic catalogs, repository.

Отличительной особенностью современности является возрастание темпов и масштабов перемен, обусловленных становлением информационного общества, в котором приоритет имеют информация и информационные процессы, знания и высокие технологии.

Процессы компьютеризации и информатизации играют основополагающую роль в развитии информационного общества, когда главным объектом управления становятся не материальные объекты, а символы, идеи, образы, интеллект, знания; когда большинство работающих заняты производством, хранением, переработкой и реализацией информации, особенно высшей ее формы - знаний [4].

Современные библиотеки являются именно таким центром по сбору, переработке, разметке и хранению информации.

Развитые системы открытого и дистанционного образования невозможно представить без надежного информационного фундамента в виде электронных собраний ресурсов образовательной направленности. В Украине практически каждое высшее учебное заведение уже столкнулось с проблемами формирования собственных и использования внешних электронных библиотечных коллекций и репозитариев, применение которых в значительной степени меняет привычные методы информационного обеспечения образовательной деятельности.

Для обеспечения нового качества обучения не достаточно только наличия способностей и трудолюбия обучаемого. В значительной степени успех процесса обучения определяется и качеством и количеством заложенного в систему учебного контента, обеспечивающего получение тех или иных компетенций. Однако для огромного объема неструктурированной текстовой информации, содержащейся в цифровых репозитариях систем e-Learning и электронных библиотеках, на тематических сайтах в Интернет, отсутствует качественный инструментарий для анализа. Отсутствует также возможность определения, насколько данный контент обеспечивает овладение необходимыми компетенциями. Не используются возможности анализа интернет-ресурсов и применения их для пополнения цифровых репозитариев актуальной информацией из тематических Web-ресурсов и электронных библиотек для покрытия необходимых компетенций [6].

На поиск необходимой информации из электронных источников, которые хранятся в современной библиотеке, пользователю, а также библиотечному работнику приходится тратить много времени. Это связано как с лавинообразным количеством информации, так и особенностями информационного поиска. Очень часто мы ищем не автора и не название книги, а по ключевым словам. Это самый распространенный способ поиска информации в поисковых системах и в электронной библиотеке (каталоге). Общая структура электронной библиотеки приведена на рис. 1.

Рассмотрим наиболее актуальные задачи для электронных коллекций и репозитариев, решаемые с помощью методов семантического анализа [2].

Задача контекстно-свободного поиска информации является одной из главных. Самым простым методом является поиск по формальному признаку - сходство словарного состава запроса и отбираемых документов. Наиболее качественные системы предусматривают расширение запроса морфологическими словоформами, а также синонимами из предоставленного разработчиками словаря. Основа такого подхода есть следующее суждение: если документы похожи по словарному составу, то с большой долей вероятности они похожи и по смысловому содержанию. Сейчас качественное развитие методов поиска может заключаться в смене критерия сходства от «сходства по словарному составу» к сходству по другим признакам, которые могли бы точнее отразить сходство смыслового содержания. Таким критерием может быть сходство семантической структуры текстов и запроса. Таким образом, задача поиска оказывается связанной с задачей извлечения информации из текста и представления её в виде формальной системы знаний. Традиционными являются методы представления семантической структуры текста в виде семантической сети или фреймов.

Рис. 1. Общая структура электронной библиотеки

Автоматическое реферирование также является одной из задач, решение которой важно для системы библиотечно-информационного обслуживания. цифровой репозитарий информация

Автоматизированный машинный перевод не является традиционной услугой системы библиотечно-информационного обслуживания в силу чрезвычайной сложности задачи получения качественного перевода. Однако, по своей сути, эта задача относится к библиотечной сфере - предоставить пользователю подходящую информацию в подходящем виде. Наиболее перспективным на данный момент является метод решения этой задачи аналогично методу автоматического реферирования. Сначала для текста, который необходимо перевести, происходит синтаксический разбор, затем текст представляется в виде его формального описания. После чего на основании формального описания генерируется текст на нужном языке [3].

Методы решения задач, относящихся к «добыче знаний», уже давно используются в системах библиотечно-информационного обслуживания и информационно-поисковых (рис. 2).

Рис. 2. Схема семантического поиска информации

Разбиение массива электронных документов на кластеры - известный метод для сужения области поиска документов по запросу. Классификация позволяет относить вновь поступающие в базу документы к тому или иному из существующих кластеров с тем, чтобы не запускать слишком часто процесс кластеризации всех документов, требующий больших временных затрат. Разные методы обладают сильно различающимися сложностью и требованиями к вычислительным мощностям, и, соответственно, позволяют добиться разных результатов. Однако все они сводятся к классификации объектов (например, электронных документов) на группы (кластеры) по сходству между ними [7; 8]. Свойствами, по которым можно определить сходство или несходство между электронными документами, являются слова, входящие в документ. Сходство вычисляется как расстояние в пространстве свойств. Есть разные подходы для вычисления расстояния в пространстве свойств [5]. Наиболее распространёнными из них являются Евклидово расстояние, манхэттенское расстояние, расстояние Чебышева, степенное расстояние и другие. Поскольку, как уже упоминалось, свойствами электронных документов являются слова, входящие в документ, полезной для системы библиотечно-информационного обслуживания также является и такая задача «добычи данных», как поиск связанных свойств. Решение этой задачи позволяет выявить термины, связанные с той или иной тематикой научных текстов. Все три упомянутые задачи (кластеризация, классификация (в узком смысле слова) и поиск связанных свойств) являются различными сторонами более общей задачи - классификации в широком смысле слова.

Последним из перечисленных выше методов смысловой обработки являются экспертные системы. Экспертные системы позволяют на основе базы знаний автоматизировано (без участия человека) принять решение [1]. Такие задачи в системе библиотечно-информационного обслуживания тоже есть. Например, в рассмотренной выше задаче автоматического реферирования для метода краткого изложения текста требуется принятие экспертного решения о том, какие из знаний, изложенных в тексте, являются важными, а какие можно опустить.

Таким образом, круг задач и методов смысловой обработки электронных данных для сферы библиотечно-информационного обслуживания является достаточно широким. В него входят почти все известные задачи смысловой обработки. В настоящее время в связи с созданием и развитием электронных коллекций и репозитариев многие задачи в электронных библиотеках (каталогах) решаются путём последовательного применения методов смысловой обработки текстовой информации.

Список использованных источников

1. Искусственный интеллект : справ. : в 3 кн. / под ред. Э. В. Попова. - М. : Радио и связь, 1990. - Кн. 1. Системы общения и экспертные системы. - 464 с.

2. Майстрович Т. В. Электронная библиотека: новые грани нашей профессии / Т. В. Мастрович // Мир библиографии. - 2000. - № 4. - С. 7-10.

3. Нелюбин Л. Л. Компьютерная лингвистика и машинный перевод / Л. Л. Нелюбин. - М. : Наука, 1983. - 241 с.

4. Петрова Т. Тенденции развития современного образования [Электронный ресурс] / Т. Петрова. - Режим доступа: http://www.observer.materik.ru/observer/N2_2006/2_11.HTM (дата обращения: 05.03.2014). - Загл. с экрана.

5. Пиотровский Р. Г. Математическая лингвистика / Р. Г. Пиотровский. - М. : Высш. шк., 1977. - 383 с.

6. Управление образовательной и научной деятельностью студентов: роль информационных технологий [Электронный ресурс]. - Режим доступа: http://ru.education.mon.gov.ru/articles/71 (дата обращения: 05.03.2014). - Загл. с экрана.

7. Pattern Recognition and Image Understanding / B. Radig, H. Niemann, Y. Zhuravlev, I. Gourevitch, I. Laptev. - Sankt Augustin : Infix, 1999. - 332 p.

8. Zubov A. Principle of Choice of Foreign Equivalents for a Six-Language Pocket Computer Translator / A. Zubov // Proceedings of the Third European Seminar "Translation Equivolence". - 1998. - P 259-268.

Размещено на Allbest.ru

...

Подобные документы

  • Определение типа и выбор формата издания, полосы набора. Выбор шрифтового оформления, расчёт объема издания, составление схемы спуска полос. Разработка технологического процесса изготовления текстовых диапозитивов. Составление технологической карты.

    курсовая работа [1,2 M], добавлен 02.05.2012

  • Преимущество периодических изданий, их цель и содержание. Особенности электронных средств массовой информации. Анализ использования электронных СМИ на примере интернет-издания "Спорт-Экспресс". Повышение эффективности производства контента новостей.

    курсовая работа [33,8 K], добавлен 23.11.2019

  • Понятие интернет-ресурсов. Виды информации и ее свойства. Особенности сбора информации. Оценка и отбор новостей. Правила сбора оффлайновой информации. Понятие информационных потоков. Особенности сбора и обработки информации для интернет-ресурсов.

    курсовая работа [563,8 K], добавлен 18.08.2012

  • Место электронных средств массовой информации в современной информационной инфраструктуре Интернета. Применение социологического подхода к изучению электронных средств массовой информации. Преобразование газетных сайтов в российском сегменте Интернета.

    дипломная работа [800,4 K], добавлен 30.09.2017

  • Особенности журналистики в режиме онлайн. Специфика языка интернет-коммуникации. Жанровые особенности текстовой трансляции спорта, роль автора и образ адресата. Сравнительный анализ текстовых онлайн-трансляций футбольных матчей на спортивных сайтах.

    дипломная работа [91,7 K], добавлен 17.07.2017

  • Требования системного подхода к средствам массовой информации. Классификация печатных СМИ (газет и журналов). Характеристика телевидения и радиовещания как электронных средств массовой информации. Типология и функции интернет-СМИ, их распространение.

    курсовая работа [51,7 K], добавлен 20.11.2009

  • История первых электронных СМИ Пскова. Создание информационных агентств, определение их эффективности. Применение сетевых версий газет и телеканалов региона как новых технологий. Сравнительный анализ традиционных и электронных средств массовой информации.

    курсовая работа [24,1 K], добавлен 01.06.2014

  • Отличия печатного интервью от радио- и телеинтервью. Диалог на газетной полосе. Определение специфики жанра интервью в печатных и электронных СМИ. Опосредованный характер интервью в печатных и электронных средствах массовой информации.

    реферат [14,8 K], добавлен 18.12.2006

  • Понятие "электронное издание", его основные свойства, существующие типологии и классификации. Средства массовой информации как средства донесения информации массовой аудитории. Область применения и технология распространения электронных изданий.

    курсовая работа [405,4 K], добавлен 10.01.2013

  • Изучение истории партии "Единая Россия": руководящие органы, символика, партийная пресса, слоганы. Структурно-функциональные особенности официального Интернет-сайта. Специфика отбора информации для размещения на сайт. Написание новостного материала.

    контрольная работа [31,3 K], добавлен 11.03.2011

  • Исследование видов и конструкций полиграфической техники и средств обработки текстовой и изобразительной информации. Описание оборудования допечатного, печатного и брошюровочно-переплетного производства. Виды красочных аппаратов флексографской печати.

    отчет по практике [838,6 K], добавлен 10.08.2014

  • Признаки манипулятивного воздействия. Феномен и механизмы языковой манипуляции. Технологии и классификация инструментов в текстах интернет-средствах массовой информации. Использование риторического инструментария. Конвергенция каналов доставки сообщений.

    дипломная работа [86,6 K], добавлен 25.05.2014

  • Развитие современного Интернета. Определение журналистики. Понятие и специфика интернет-журналистики. Интернет как способ общения в журнализме. Проблема свободы средств массовой информации в современной России. Закон о средствах массовой информации.

    курсовая работа [41,6 K], добавлен 18.06.2012

  • Понятие-Интернет как СМИ. Возможности и свойства сети Интернет. Отличия от других СМИ. Особенности размещения информации в ИнтернетеОсобенности интернет-версий печатных издании. Структура информационного и информационно-развлекательного сайта.

    курсовая работа [532,8 K], добавлен 24.04.2007

  • Интернет как средство массовой информации (СМИ). Интернет-СМИ как часть медиасистемы. Место и роль интернет-журналистики в системе российских СМИ. Типология интернет-ресурсов. Действующие сетевые источники новостной информации региона и их аудитория.

    дипломная работа [881,9 K], добавлен 11.07.2015

  • Изучение проблем региональных СМИ, наличие обратной связи, адресности, социально-демографических характеристик аудитории. Методика повышения эффективности информационной политики электронных и печатных средств массовой информации в Хабаровском крае.

    курсовая работа [336,8 K], добавлен 17.06.2011

  • Документальные источники информации. Предметно-вещевая среда как источник журналистской информации. Интернет как источник журналистской информации. Человек как источник журналистской информации. Общение журналиста с коллегами.

    курсовая работа [32,9 K], добавлен 21.09.2007

  • Интернет как средство массовой информации. Особенности размещения информации в сети. Дополнительные возможности изучения посетителей через Интернет. Электронные СМИ. Анализ структуры информационного сайта Интернет-версии газеты "Вятский наблюдатель".

    реферат [28,4 K], добавлен 21.06.2014

  • Понятие и функции СМИ. Аспекты их формирования в РФ, система нормативно-правового регулирования деятельности, история развития прав на свободу. Роль электронных средств массовой информации и сети Интернет в этнокультурном развитии Республики Татарстан.

    курсовая работа [59,6 K], добавлен 07.04.2014

  • Исследование особенностей развития средств массовой информации в сети Интернет, который является многофункциональным средством передачи информации и предлагает большое число различных форм общения. Аудитория отечественных интернет-СМИ. Роль журналиста.

    реферат [41,3 K], добавлен 21.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.