Основы информатики
Естественный язык как универсальная знаковая система, служащая для обмена информацией между людьми, определение его недостатков. Информационно-поисковые языки, их типы. Обработка входящей текстовой информации. Методы автоматического рубрицирования.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 17.02.2017 |
Размер файла | 108,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
1. Недостатки естественного языка
Как известно, естественный язык (ЕЯ) является универсальной знаковой системой, служащей для обмена информацией между людьми. Поскольку документы, поступающие на вход ДИПС, записаны на ЕЯ, справедливо было бы задаться вопросом, а нельзя ли использовать ЕЯ в качестве основного средства представления информации во время всего цикла функционирования ДИПС? Ответ будет положительным, если речь идет о тех ИПС, в которых соответствие между запросом и документом устанавливает человек. Однако в современных ДИПС эта операция выполняется компьютером, что практически исключает применение ЕЯ в качестве основного средства представления информации. Это объясняется существенными недостатками ЕЯ с точки зрения машинной технологии обработки информации, основные из которых рассмотрены ниже.
Многообразие средств передачи смысла. Несмотря на то, что основным средством передачи смысла сообщения является лексика естественного языка, в сообщениях на ЕЯ функцию передачи смысла выполняет и ряд других элементов:
1. контекст;
2. парадигматические отношения между словами;
3. текстуальные отношения между словами;
4. ссылки на слова (словосочетания, фразы и т.д.), ранее упоминавшиеся в тексте сообщения.
Семантическая неоднозначность. Сообщения, записанные на естественном языке, могут быть семантически неоднозначными. Семантическая неоднозначность возникает в основном из-за синонимии и многозначности слов естественного языка.
Синонимия представляет собой тождественность или близость по значению слов, выражающих одно и то же понятие, которые отличаются одно от другого или оттенками значений, или стилистической окраской, или одновременно обоими названными признаками. Синонимами естественного языка являются как отдельные слова, так и словосочетания.
Многозначность характеризует возможность неоднозначного понимания смысла отдельных слов естественного языка. Многозначность слов представлена двумя разновидностями - полисемией и омонимией. Полисемия - это совпадение названий различных предметов, имеющих между собой какие-либо общие свойства или признаки. К типичным общим свойствам, служащим базой полисемии, следует отнести сходство предметов, их смежность (пространственную, временную и т.д.), а также одинаковое функциональное назначение. Примерами полисемии являются: «команда» (воинское подразделение) - «команда» (экипаж судна) - «команда» (спортивная). Омонимия - это совпадение названий различных предметов, не имеющих между собой каких-либо общих свойств. Например: «лук» (оружие) - «лук» (растение); «ключ» (родник) - «ключ» (дверной).
Омонимичные слова, совпадающие между собой как по написанию, так и по звучанию, следует отличать от омографов - слов, обозначающих различные предметы, одинаковые по написанию, но разные по звучанию, например: «замок» (дверной) - «замок» (дворец). Однако, поскольку ДИПС оперируют с сообщениями на естественном языке, представленными в письменной форме, вследствие чего фонетика языка не оказывает решающего влияния на смысл таких сообщений, омографы могут быть приравнены к омонимичным словам.
2. Информационно-поисковые языки. Их классификация
Невозможность использования ЕЯ в качестве основного средства представления информации в ДИПС приводит к необходимости применения искусственных языковых средств. Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности последующего их поиска. ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.
ИПЯ принято разбивать на два основных типа: классификационные языки, дескрипторные языки.
Разница в процедуре построения предложений.
Частным случаем классификационного ИПЯ является рубрикатор, лексическими единицами которого являются названия тематических рубрик. В целом под рубрикатором некоторой предметной области понимается ориентированный граф, состоящий из независимых деревьев.
Другой тип языков составляют дескрипторные ИПЯ, в которых ЛЕ (лексических единиц, т.е. отдельных слов) заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции - предложения или фразы - создаются в этих языках путем объединения (координации) ЛЕ во время процедуры представления смыслового содержания документов системы. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на составление сложных понятий. Фактически из небольшого числа ЛЕ данные языки позволяют строить предложения, выражающие практически любой смысл.
Различают дескрипторные ИПЯ с грамматикой и без грамматики. Первые характеризуются наличием ряда жестких правил формирования синтаксических конструкций. Кроме того, различают дескрипторные ИПЯ с контролируемой и со свободной лексикой. Лексический состав первых строго ограничен и зафиксирован в словаре ИПЯ, в то время как на лексический состав вторых не налагается никаких ограничений, и он может постоянно пополняться за счет включения новых ЛЕ.
3. Обработка входящей текстовой информации
Т.к. документы, поступающие на вход ДИПС, записаны на ЕЯ, в ней обязательно должна проводиться операция перевода текстов входных документов с ЕЯ на ИПЯ. Тип используемого ИПЯ оказывает сильное влияние на суть процессов обработки информации в конкретных ДИПС. В случае применения ИПЯ дескрипторного типа такая операция перевода называется индексированием, при использовании рубрикатора - рубрицированием.
На сегодняшний день среди дескрипторных ИПЯ наибольшее распространение в автоматизированных ДИПС получили языки без грамматики и без контроля по словарю. При их использовании говорят о полнотекстовом индексировании.
В операции перевода можно выделить два этапа:
1. Анализ смыслового содержания текста с целью выделения из него сведений об известных системе объектах, их свойствах, а также отношениях между ними.
2. Выражение этих сведений на ИПЯ, т.е. принятие решения о приписывании данному сообщению выражений на ИПЯ (о включении соответствующих выражений на ИПЯ в ПОД).
Этап анализа смыслового содержания текста связан с необходимостью использования лингвистических и экстралингвистических знаний. Лингвистические знания являются общими для одного языка и на сегодняшний день являются достаточно хорошо формализованными, в то время как экстралингвистические сильно зависят от конкретной предметной области, а задача их формализации является одной из самых сложных. В этой связи в современных ДИПС этап анализа текста чаще всего сводится к лингвистическому анализу, проводимому с целью нормализации слов и словосочетаний.
Под нормализацией слов понимается их приведение к канонической форме (например, для существительных - именительному падежу, единственному числу и т.п.), под нормализацией словосочетаний - нормализация составляющих и запись их в определенной последовательности (например, сначала записывается основное слово, а затем - зависимые слова). Нормализованные слова и словосочетания часто называют терминами.
4. Лингвистический анализ текста
Лингвистический анализ текста может состоять из двух этапов:
1.морфологического анализа;
2.синтаксического анализа.
Цель морфологического анализа состоит в получении основ (под основой понимается словоформа с отсеченным окончанием) со значениями грамматических категорий (например, часть речи, род, число, падеж) для каждой из словоформ.
Различают точные и приближенные методы морфологического анализа. Точных методы базируются на использовании словаря основ слов или словоформ, приближенные - на экспериментально установленной связи между конечными буквосочетаниями словоформ и их грамматической информацией.
Использование словаря словоформ в точных методах позволяет легко преодолеть трудности морфологического анализа, связанные с такими явлениями в русском языке, как, например, чередование гласных и согласных. При таком подходе задача получения основ слов и грамматических признаков сводится в основном к поиску в словаре и выбору соответствующей информации (собственно же морфологический анализ требуется лишь в том случае, если словоформа не найдена в словаре). При достаточно полном словаре скорость обработки материала достаточно высока, но объем необходимой памяти в 2-3 раза больше, чем при использовании словаря основ.
Морфологический анализ с использованием словаря основ базируется на флективном анализе, цель которого - правильное выделение основы слова. Основная трудность при использовании данного подхода связана с явлением омонимии основ слов. Для ее устранения проверяется совместимость выделенной основы слова и его окончания.
В основе приближенных методов морфологического анализа лежит гипотеза, согласно которой по конечным буквам и буквосочетаниям можно практически однозначно определить грамматический класс слова. Основа слова выделяется следующим образом - от конца слова последовательно отсоединяется по 1-й букве и полученные буквосочетания сравниваются со списком окончаний, соответствующих данному грамматическому классу. Как только появится совпадение, делается вывод о том, что оставшаяся часть слова - его основа. Для анализа обычно хватает биграмм, триграммы и четырехграммы используются редко.
5. Автоматическое индексирование
Автоматическое индексирование документов может основываться на простых, однословных или многословных составных терминах (фразах). Простые, однословные термины далеко не идеальны для индексирования, поскольку смысл слов вне контекста нередко бывает неоднозначным. Термины-фразы более осмысленны, обладают большей дискриминирующей мощью. Для генерации фраз может использоваться как синтаксический анализ, так и ряд эвристических алгоритмов.
Для генерации групп взаимосвязанных слов по замеченным закономерностям совместного их вхождения в документы применяются методы группирования или кластеризации терминов.
Простые и составные термины, выполняющие чисто грамматическую функцию, заносятся в так называемые списки исключения и удаляются.
Основу современных методов автоматического индексирования составляет присваивание весовых коэффициентов терминам на основе статистических характеристик. Предположим, что в исследуемой совокупности имеется N документов. Пусть tfij - частота вхождения термина Tj в документ Di. Индексирование на основе частоты термина позволяет достичь лишь одной из целей индексирования - полноты поиска. Между тем термины, сконцентрированные в отдельных документах совокупности, можно использовать для повышения точности поиска. Это позволит отделить документы, где такие термины встречаются, от тех, где их нет.
Полученные значения весов терминов могут использоваться в процессе принятия решения о включении каждого из терминов в ПОД. Однако чаще решение не принимается, а в ПОД заносятся все термины, встретившиеся в документе, и их веса.
В современных исследованиях по данной проблеме выделяют два основных подхода: рубрицирование, основанное на знаниях, и рубрицирование, основанное на обучении по примерам.
6. Методы автоматического рубрицирования, основанные на знаниях
информационный текстовый рубрицирование поисковый
В системах, реализующих данный подход, используются заранее сформированные базы знаний, в которых описываются языковые выражения, соответствующие той или иной рубрике, правила выбора между рубриками. Процесс создания подобных систем часто сравнивают с созданием экспертных систем для диагностики и классификации. Наибольшее распространение среди данных методов получили две модели представления знаний: модель семантической сети и продукционная модель.
В первом случае знания о предметной области описываются независимо от рубрикатора в специального вида тезаурусе, который связывается с одним или более рубрикаторами гибкой системой отношений.
Под тезаурусом понимается иерархическая сеть понятий и отношений между ними. Тезаурус может быть разработан независимо от какой-либо системы рубрицирования. В нем могут быть накоплены разнообразные варианты представления в тексте понятий предметной области (дескрипторов).
Кроме того, в комплекс знаний могут также быть включены дополнительные базы данных, например: географическая база данных, содержащая описания географических объектов, база данных организаций, персоналий и т.д.
Тезаурус и базы данных имеют одну структуру и состоят из следующих частей:
1. Дескрипторов, которые соответствуют понятиям или конкретным объектам. Обычно дескриптором является существительное или именная группа.
2. Каждый дескриптор имеет совокупность текстовых входов или синонимов. Одно слово может быть синонимом различных дескрипторов.
3. Отношения между дескрипторами внутри каждой базы данных, например:
- более широкий термин (выше);
- более узкий термин (ниже);
- связанный термин (ассоциация);
- целое для термина (часть);
- часть для термина (целое).
4. Отношения между дескрипторами различных баз данных.
Процесс рубрицирования разбивается на два этапа. Первым из них является выделение понятий из текста, которое можно представить как процесс распознавания, основывающийся на использовании данных из базы определений.
На втором этапе принимается решение о принадлежности текста к конкретной рубрике. На его вход поступают выделенные на первом этапе из текста понятия, с возможными весами.
База правил
Преимуществами данного подхода являются высокое качество рубрицирования и высокое быстродействие на тех текстовых потоках, для которых они проектировались. Основными недостатками подобных систем являются, как и в предыдущем случае:
1. высокая трудоемкость и значительные затраты, необходимые для разработки системы;
2. жесткая привязка баз знаний и алгоритмов к предметной области, конкретному рубрикатору, а также размеру и формату рубрицируемых текстов.
Большинство же систем автоматического рубрицирования текстов требуют более быстрого и дешевого построения.
7. Системы индексирования
Система индексирования (СИ) - совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.
Рассмотрим классификацию систем индексирования [29].
1. По степени автоматизации процесса индексирования выделяют системы:
- научного индексирования;
* автоматического индексирования
* автоматизированного индексирования.
По степени контролируемости различают системы:
* без словаря;
* с жестким словарем;
* со свободным словарем.
2. По характеру алгоритма отбора слов текста выделяют системы:
* с последовательным просмотром текста (отбираются все полнозначные слова);
* с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);
* со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).
Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.
При жестком индексировании слова берутся только из текста.
Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.
Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов.
Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).
8. Полнотекстовые информационно-поисковые системы
Процессы компьютеризации деятельности предприятий привели к накоплению большого объема неструктурированной текстовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации.
Информационно-поисковые каталоги, фасетные и тезаурусные системы не могли быть в полной мере использованы в массовой персональной автоматизации. Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий [14]. В результате на рынке программных продуктов появились полнотекстовые ИС.
Примером полнотекстовых информационно-поисковых систем являются автоматизированные информационные системы по законодательству.
Автоматизированная информационная система по законодательству (АИСЗ) - это программный комплекс, включающий в себя массив правовой информации и инструменты для работы с ним. Эти инструменты позволяют производить поиск документов, формировать подборки документов, печатать документы.
АИСЗ являются частью следующих типов информационных систем:
1. Справочно-информационные системы общего назначения, ориентированные на доступ пользователей к нормативно-правовым актам («Консультант Плюс», «Гарант», «Кодекс» и др.);
2. Глобальные информационные службы (хост-системы), предоставляющие доступ удаленным пользователям к библиографической, полнотекстовой или другой информации (крупнейшей в мире коммерческой службой, обеспечивающей доступ к юридической информации, является система LEXIS (США));
Основными особенностями АИСЗ являются:
* необходимость предоставления адресного доступа к полным текстам;
* в информационных языках для поиска в БД по законодательству необходим учет контекстных связей, регламентированных прилагательных (типа «обязательный», «произвольный» и др.);
тексты нормативных актов должны подвергаться так называемой юридической обработке, при которой тексту приписываются не только классификационные индексы, ключевые слова, но и комментарии специалистов, ссылки на предшествующие версии, связанные документы, решения судов и др. (без юридической обработки АИСЗ является всего лишь электронным аналогом бумажных изданий).
В настоящее время наиболее распространена АИСЗ «Консультант Плюс». Система «Гарант» занимает второе место в России по количеству пользователей. На третьем месте находится достаточно популярный продукт - информационно-поисковая система «Кодекс», которая разработана малым государственным предприятием «Центр компьютерных разработок».
Доступ пользователя к информации, хранящейся в АИСЗ, может осуществляться двумя способами, каждый из которых имеет свои достоинства и недостатки:
* работа с удаленной базой;
* работа с локальной базой.
При работе с удаленной базой пользователю нет необходимости хранить на своем компьютере данные системы, они хранятся на сервере разработчика и доступны через сеть. Большинство АИСЗ имеют версии, доступные через глобальную сеть Интернет. Основное преимущество работы с такими версиями заключается в том, что пользователь всегда имеет доступ к самым последним данным.
Однако для работы с удаленной базой пользователю необходим доступ к Интернету. Зачастую скорость передачи информации через Интернет низкая из-за плохого качества каналов, а стоимость доступа достаточно высокая. Поэтому иногда более выгоден вариант работы с локальной базой, которая доступна в любой момент. Недостатком этого варианта по сравнению с предыдущим является более продолжительный период актуализации информации.
Размещено на Allbest.ru
...Подобные документы
Язык как способ представления информации и знаковая система. Естественные и формальные языки. Функции естественного языка. Строгие однозначные правила, ограниченный словарь в основе формальных языков. Кодирование информации, ее представление в компьютере.
презентация [2,6 M], добавлен 11.01.2012Обзор понятия и принципов функционирования электронной почты - средства обмена информацией, подготовленной в электронном виде, между людьми, имеющими доступ к компьютерной сети. Информационно-поисковые системы. Параметры эффективности поиска информации.
презентация [677,8 K], добавлен 12.12.2012Повышение эффективности (снижение времени, увеличение релевантности документов) поиска данных в больших массивах неструктурированной текстовой информации с помощью поисково-информационных и поисково-справочных машин. Классификация сайтов. Языки запроса.
дипломная работа [523,2 K], добавлен 07.07.2015Компоненты документальной информационно-поисковой системы. Результаты индексирования документов и запросов. Иерархическая, фасетная и эмпирическая классификационные схемы. Дескрипторные информационно-поисковые языки. Примеры дескрипторной статьи.
презентация [59,2 K], добавлен 14.10.2013Восприятие информации и языки. Характеристика тем уроков и практических заданий. Документация на программно-педагогическое средство. Действия с информацией: поиск, сбор, обработка, хранение, передача информации. Методика применения программного продукта.
дипломная работа [954,9 K], добавлен 13.06.2014Методика использования информационных образовательных технологий. Логическая структура базы данных (БД) и информационно-поисковые функции. Программная реализация БД, представлений таблиц и информационно-поисковых функций. Состав программного обеспечения.
курсовая работа [2,1 M], добавлен 16.05.2013Язык программирования как формальная знаковая система, предназначенная для записи программ. Рефал как алгоритмический язык рекурсивных функций. Лисп как ассемблер, ориентированный на работу со списковыми структурами. Пролог: понятие, основные средства.
презентация [90,2 K], добавлен 22.02.2014Циклы обмена информацией в режиме прямого доступа к памяти. Управляющие сигналы, формируемые процессором и определяющие моменты времени. Запросы на обмен информацией по прерываниям. Мультиплексирование шин адреса и данных. Протоколы обмена информацией.
лекция [29,0 K], добавлен 02.04.2015Язык программирования как формальная знаковая система, предназначенная для записи программ, его отличие от естественных языков. Прописные и строчные буквы латинского алфавита. Ключевые слова языка программирования. Классическая схема создания программы.
презентация [1,2 M], добавлен 19.02.2014Поиск информации в Интернет с помощью каталогов и поисковых машин. Мгновенный обмен информацией в Интернете. Основные программы и браузеры для поиска и обмена информацией. Программное обеспечение для просмотра веб-сайтов. Программы для обмена файлами.
дипломная работа [81,1 K], добавлен 23.06.2012Информационно-поисковый язык и словарь. Последовательность процедуры поиска. Фактографические, документальные и геоинформационные системы. Справочно-правовая система "Консультант Плюс", "Гарант". Структура и состав информационных продуктов "Кодекс".
контрольная работа [250,6 K], добавлен 07.10.2013Основные определения и понятия информатики. Вычислительная техника, история и этапы ее развития. Методы классификации компьютеров, их типы и функции. Разновидности системного и прикладного программного обеспечения. Представление информации в ЭВМ.
учебное пособие [35,3 K], добавлен 12.04.2012Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.
реферат [19,0 K], добавлен 02.11.2008Информатика - технология сбора, хранения и защиты информации. Обработка текстовой информации, специализированное и прикладное программное обеспечение. Технические средства; базы данных; автоматизированные информационные системы; антивирусные средства.
реферат [24,6 K], добавлен 09.12.2012Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.
курсовая работа [70,2 K], добавлен 10.06.2014Совершенствование процессов обмена информацией между физическими и юридическими лицами в помощью сетей Internet и Intranet. История развития геоинформационных систем. Обработка кадастровой информации: анализ данных и моделирование, визуализация данных.
реферат [24,1 K], добавлен 22.05.2015Представление информации в двоичной системе. Необходимость кодирования в программировании. Кодирование графической информации, чисел, текста, звука. Разница между кодированием и шифрованием. Двоичное кодирование символьной (текстовой) информации.
реферат [31,7 K], добавлен 27.03.2010Работа с хранящейся в базах данных информацией. Язык описания данных и язык манипулирования данными. Распространение стандартизованных языков. Структурированный язык запросов SQL. Язык запросов по образцу QBE. Применение основных операторов языка.
презентация [76,2 K], добавлен 14.10.2013Представление числовой информации с помощью систем счисления. Кодирование символьной, текстовой, числовой и графической информации. Устройство жесткого диска; дисковод компакт-дисков CD-ROM. Использование главного меню Windows; языки программирования.
контрольная работа [62,9 K], добавлен 16.03.2015Взаимодействие уровней в модели открытой системы обмена информацией. Описания сетевого оборудования. Характеристика коаксиального и оптоволоконного кабелей. Подключение кабелей и разъемы для них. Особенности соединения двух рабочих станций между собой.
презентация [384,8 K], добавлен 27.08.2013