Программы компьютерной лингвистики

Компьютерная лингвистика и ее исследования. Проблемы автоматической обработки текстовой информации, представленной на естественных языках. Моделирование процесса понимания смысла текстов. Точность в памяти ЭВМ декларативных и процедурных средств.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 17.06.2014
Размер файла 30,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования и науки Российской Федерации

Владивостокский государственный университет экономики и сервиса

филиал в г. Находка

Факультет бизнес-информатики

Реферат

по дисциплине "Основы стандартизации и компьютерное делопроизводство"

Программы компьютерной лингвистики

Студент гр. ББИ-12 Витязев Г.

Преподаватель Маринина Г.В.

Находка 2013

Содержание

Введение

1. Компьютерная лингвистика в лингвистических исследованиях

1.1 Понятие компьютерной лингвистики

1.2 Задачи компьютерной лингвистики

2. Современные интерфейсы компьютерной лингвистики

2.1 Описание системы Web Vista

3. Гипертекстовые системы

3.1 Элементы типологии гипертекста

Заключение

Список использованных источников

Введение

В жизни современного общества важную роль играют автоматизированные технологии. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.

Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми - средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. Эта наука возникла сравнительно недавно - на рубеже пятидесятых и шестидесятых годов прошлого столетия. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Данная работа посвящена построению оптимального компьютерного интерфейса средствами компьютерной лингвистики при проведении лингвистических исследований.

1. Компьютерная лингвистика в лингвистических исследованиях

В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика. В этом разделе мы как можно подробнее изучим роль компьютерной лингвистики в лингвистических исследованиях.

1.1 Понятие компьютерной лингвистики

Компьютерная лингвистика - это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных.

Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части - средства манипулирования единицами языка и речи, текстами и грамматическими таблицами. Компьютерный интерфейс относится к процедурной части компьютерной лингвистики.

Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.).

Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран(Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.

Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых компьютерных интерфейсах? Большинство ученых считают что, второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом меньше встретится тупиков и трудно преодолимых препятствий и здесь можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок.

Необходимость мобилизации усилий, прежде всего, на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств. лингвистика компьютерный информация

В свете вышеизложенного, представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, изучение их семантико-синтаксической структуры и на создание базовых процедур морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач.

1.2 Задачи компьютерной лингвистики

Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:

1. Автоматизация составления и лингвистической обработки машинных словарей;

2. Автоматизация процессов обнаружения и исправления ошибок при вводе текстов в ЭВМ;

3. Автоматическое индексирование документов и информационных запросов;

4. Автоматическая классификация и реферирование документов;

5. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных;

6. Машинный перевод текстов с одних естественных языков на другие;

7. Построение лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами (в частности, с экспертными системами) на естественном языке, или на языке, близком к естественному;

8. Извлечение фактографической информации из неформализованных текстов.

Подробно остановимся на проблемах, наиболее относящихся к теме исследования.

В практической деятельности информационных центров есть необходимость решения задачи автоматизированного обнаружения и исправления ошибок в текстах при их вводе в ЭВМ. Эта комплексная задача может быть условно расчленена на три задачи - задачи орфографического, синтаксического и семантического контроля текстов. Первая из них может быть решена с помощью процедуры морфологического анализа, использующей достаточно мощный эталонный машинный словарь основ слов. В процессе орфографического контроля слова текста подвергаются морфологическому анализу, и если их основы отождествляются с основами эталонного словаря, то они считаются правильными; если не отождествляются, то они в сопровождении микроконтекста выдаются на просмотр человеку. Человек обнаруживает и исправляет искаженные слова, а соответствующая программная система вносит эти исправления в корректируемый текст.

Задача синтаксического контроля текстов с целью обнаружения в них ошибок существенно сложнее задачи их орфографического контроля. Во-первых, потому, что она включает в свой состав и задачу орфографического контроля как свою обязательную компоненту, а, во-вторых, потому, что проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена. Тем не менее, частичный синтаксический контроль текстов вполне возможен. Здесь можно идти двумя путями: либо составлять достаточно представительные машинные словари эталонных синтаксических структур и сравнивать с ними синтаксические структуры анализируемого текста; либо разрабатывать сложную систему правил проверки грамматической согласованности элементов текста. Первый путь нам представляется более перспективным, хотя он, конечно, не исключает и возможности применения элементов второго пути. Синтаксическая структура текстов должна описываться в терминах грамматических классов слов (точнее - в виде последовательностей наборов грамматической информации к словам).

Задачу семантического контроля текстов с целью обнаружения в них смысловых ошибок следует отнести к классу задач искусственного интеллекта. В полном объеме она может быть решена только на основе моделирования процессов человеческого мышления. При этом, по-видимому, придется создавать мощные энциклопедические базы знаний и программные средства манипулирования знаниями. Тем не менее, для ограниченных предметных областей и для формализованной информации эта задача вполне разрешима. Она должна ставиться и решаться как задача семантико-синтаксического контроля текстов.

Проблема автоматизации индексирования документов и запросов является традиционной для систем автоматизированного поиска текстовой информации. Поначалу под индексированием понимали процесс присвоения документам и запросам классификационных индексов, отражающих их тематическое содержание. В дальнейшем это понятие трансформировалось и термином "индексирование" стали называть процесс перевода описаний документов и запросов с естественного языка на формализованный, в частности, на язык "поисковых образов". Поисковые образы документов стали, как правило, оформляться в виде перечней ключевых слов и словосочетаний, отражающих их тематическое содержание, а поисковые образы запросов - в виде логических конструкций, в которых ключевые слова и словосочетания соединялись друг с другом логическими и синтаксическими операторами.

Автоматическое индексирование документов удобно проводить по текстам их рефератов (если они имеются), поскольку в рефератах основное содержание документов отражается в концентрированном виде. Индексирование может проводиться с контролем по тезаурусу или без контроля. В первом случае в тексте заголовка документа и его реферата ищутся ключевые слова и словосочетания эталонного машинного словаря и в ПОД включаются только те из них, которые нашлись в словаре. Во втором случае ключевые слова и словосочетания выделяются из текста и включаются в ПОД независимо от их принадлежности к какому-либо эталонному словарю. Был реализован еще и третий вариант, где наряду с терминами из машинного тезауруса в ПОД включались еще и термины, выделенные из заголовка и первого предложения реферата документа. Эксперименты показали, что ПОДы, составленные в автоматическом режиме по заголовкам и рефератам документов, обеспечивают большую полноту поиска, чем ПОДы, составленные вручную. Объясняется это тем, что система автоматического индексирования более полно отражает различные аспекты содержания документов, чем система ручного индексирования.

При автоматическом индексировании запросов возникают примерно те же проблемы, что и при автоматическом индексировании документов. Здесь также приходится выделять ключевые слова и словосочетания из текста и нормализовать слова, входящие в текст запроса. Логические связки между ключевыми словами и словосочетаниями и контекстуальные операторы могут проставляться вручную или с помощью автоматизированной процедуры. Важным элементом процесса автоматического индексирования запроса является дополнение входящих в его состав ключевых слов и словосочетаний их синонимами и гипонимами (иногда также гиперонимами и другими терминами, ассоциированными с исходными терминами запроса). Это может быть сделано в автоматическом или в интерактивном режиме с помощью машинного тезауруса.

Проблему автоматизации поиска документальной информации мы уже частично рассматривали в связи с задачей автоматического индексирования. Наиболее перспективным здесь является поиск документов по их полным текстам, так как использование для этой цели всякого рода заменителей (библиографических описаний, поисковых образов документов и текстов их рефератов) приводит к потерям информации при поиске. Наибольшие потери имеют место тогда, когда в качестве заменителей первичных документов используются их библиографические описания, наименьшие - при использовании рефератов.

Важными характеристиками качества поиска информации являются его полнота и точность. Полнота поиска может быть обеспечена путем максимального учета парадигматических связей между единицами языка и речи (словами и словосочетаниями), а точность - путем учета их синтагматических связей. Существует мнение, что полнота и точность поиска находятся в обратной зависимости: меры по улучшению одной из этих характеристик приводят к ухудшению другой. Но это справедливо только для фиксированной логики поиска. Если эту логику совершенствовать, то обе характеристики могут улучшаться одновременно.

Процесс поиска информации в полнотекстовых базах данных целесообразно строить как процесс диалогового общения пользователя с информационно-поисковой системой (ИПС), при котором он последовательно просматривает фрагменты текстов (абзацы, параграфы), удовлетворяющие логическим условиям запроса, и отбирает те из них, которые для него представляют интерес. В качестве окончательных результатов поиска могут выдаваться как полные тексты документов, так и любые их фрагменты.

Как видно из предыдущих рассуждений, при автоматическом поиске информации приходится преодолевать языковый барьер, возникающий между пользователем и ИПС в связи с имеющим место в текстах разнообразием форм представления одного и того же смысла. Этот барьер становится еще более значительным, если поиск приходится вести в разноязычных базах данных. Кардинальным решением проблемы здесь может быть машинный перевод текстов документов с одних языков на другие. Это можно делать либо заранее, перед загрузкой документов в поисковую систему, либо в процессе поиска информации. В последнем случае запрос пользователя должен переводиться на язык массива документов, в котором ведется поиск, а результаты поиска - на язык запроса. Такого рода поисковые системы уже работают в системе Internet. В ВИНИТИ РАН была также построена система Cyrillic Browser, которая позволяет производить поиск информации в русскоязычных текстах по запросам на английском языке с выдачей результатов поиска также на языке пользователя.

Важной и перспективной задачей компьютерной лингвистики является построение лингвистических процессоров, обеспечивающих общение пользователей с интеллектуальными автоматизированными информационными системами (в частности с экспертными системами) на естественном языке или на языке, близком к естественному. Поскольку в современных интеллектуальных системах информация хранится в формализованном виде, то лингвистические процессоры, выполняя роль посредников между человеком и ЭВМ, должны решать следующие основные задачи: 1) задачу перехода от текстов входных информационных запросов и сообщений на естественном языке к представлению их смысла на формализованном языке (при вводе информации в ЭВМ); 2) задачу перехода от формализованного представления смысла выходных сообщений к его представлению на естественном языке (при выдаче информации человеку). Первая задача должна решаться путем морфологического, синтаксического и концептуального анализа входных запросов и сообщений, вторая - путем концептуального, синтаксического и морфологического синтеза выходных сообщений.

Концептуальный анализ информационных запросов и сообщений состоит в выявлении их понятийной структуры (границ наименований понятий и отношений между понятиями в тексте) и переводе этой структуры на формализованный язык. Он проводится после морфологического и синтаксического анализа запросов и сообщений. Концептуальный синтез сообщений состоит в переходе от представления элементов их структуры на формализованном языке к вербальному (словесному) представлению. После этого сообщениям дается необходимое синтаксическое и морфологическое оформление.

Для машинного перевода текстов с одних естественных языков на другие необходимо располагать словарями переводных соответствий между наименованиями понятий. Знания о таких переводных соответствиях накапливались многими поколениями людей и оформлялись в виде специальных изданий - двуязычных или многоязычных словарей. Для специалистов, владеющих в той или иной мере иностранными языками, эти словари служили ценными пособиями при переводе текстов.

В традиционных двуязычных и многоязычных словарях общего назначения переводные эквиваленты указывались преимущественно для отдельных слов, для словосочетаний - значительно реже. Указание переводных эквивалентов для словосочетаний было более характерно для специальных терминологических словарей. Поэтому при переводе отрезков текстов, содержащих многозначные слова, у обучаемых часто возникали затруднения.

Ниже приведены переводные соответствия между несколькими парами английских и русских фраз по "школьной" тематике.

1) The bat looks like a mouse with wings - Летучая мышь похожа на мышь с крыльями.

2) Children like to play in the sand on the beach - Дети любят играть в песке на берегу моря.

3) A drop of rain fell on my hand - Капля дождя упала мне на руку.

4) Dry wood burns easily - сухие дрова хорошо горят.

5) He pretended not to hear me - Он делал вид, что не слышит меня.

Здесь английские фразы не являются идиоматическими выражениями. Тем не менее, их перевод на русский язык лишь с некоторой натяжкой можно рассматривать как простой пословный перевод, так как почти все входящие в них слова многозначные. Поэтому здесь обучаемым способны помочь только достижения компьютерной лингвистики.

Ниже будут рассмотрены основные системы машинного перевода, способные помогать обучаемым при изучении языка.

2. Современные интерфейсы компьютерной лингвистики

Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в 1954 г. в Джорджтаунском университете (г. Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода (систем МП). И хотя с тех пор прошло полстолетия, проблема машинного перевода все еще не решена на должном уровне. Она оказалась значительно сложнее, чем это представляли себе пионеры и энтузиасты МП конца пятидесятых - начала шестидесятых годов прошлого века.

Описание интерфейсов компьютерной лингвистики

Из достижений компьютерной лингвистики следует выделить, прежде всего, систему под названием RETRANS. Первая промышленная версия этой системы была разработана в 1993 году и стала использоваться в ряде государственных учреждений России, Франции, США и Англии. После этого было создано еще несколько версий системы. До 1998 г. все они были предназначены для работы в среде операционной системы MS DOS, а в 1998-2000 г.г. были адаптированы для операционных систем Windows 9x/NT и различных вариантов UNIX (Linux, Solaris и др.).

В 2001 г. тем же авторским коллективом была разработана новая версия системы фразеологического машинного перевода RETRANS. Эта версия реализована в нескольких модификациях:

1. Система, работающая в среде текстового процессора MS Word-2000.

2. Система, работающая в среде Web-браузера MS Internet Explorer.

3. Система, работающая с любыми Windows-приложениями, способными копировать текст в "Буфер Обмена" (Clipboard).

Первая модификация системы обладает тем достоинством, что человек, имеющий опыт работы с редактором типа Word, может с помощью этой. При этом он может пользоваться всеми возможностями редактора Word.

Вторая модификация системы может служить эффективным средством общения с системой Internet для лиц, знающих русский язык, но не знающих английского, или, наоборот, знающих английский язык, но не знающих русского. Она может также использоваться для перевода любых документов, представленных в виде Web-страниц (например, электронной версии Британской Энциклопедии). При этом во всех случаях сохраняется внешний вид переведенной страницы.

Третья модификация системы может быть полезна при работе с простыми программами типа MS Notepad, MS Wordpad, MS Paint и им подобными, а также при обработке различных электронных форм.

В случае необходимости, на одной ЭВМ могут устанавливаться несколько модификаций системы RETRANS одновременно. При этом ядро процедурных средств и словарные средства системы будут представлены только в одном экземпляре.

Основные политематические машинные словари системы Retrans (русско-английский и англо-русский) включают в свой состав терминологию по естественным и техническим наукам, экономике, бизнесу, политике, законодательству и военному делу.

Кроме основных политематических машинных словарей в состав системы RETRANS входят двенадцать дополнительных тематических словарей, включающих лексику родственных тематик. Эти словари содержат словарные статьи только тех слов и словосочетаний из политематических словарей, которые в рамках каждой тематической группы имеют приоритетные переводные эквиваленты, отличные от приоритетных переводных эквивалентов основных словарей. В дополнительных тематических словарях лексические единицы (слова и словосочетания)могут иметь не более двух переводных эквивалентов (в политематическом словаре их может быть до пяти).

Средства автоматизированного пополнения и настройки машинных словарей, созданные на начальных этапах разработки системы RETRANS, сыграли большую роль в ее дальнейшем развитии. Но опыт практической эксплуатации этой системы выявил необходимость введения некоторых изменений в структуру словарей. Наряду с основными политематическими и дополнительными тематическими словарями системы были введены еще и дополнительные словари пользователей. При этом имелось в виду, что при переводе текстов с одного языка на другой одновременно используются три словаря: основной политематический словарь, один из дополнительных тематических словарей и один из словарей пользователей.

Словарь пользователя (СП) служит для тонкой настройки системы машинного перевода, выполняемой самим пользователем при переводе текстов по конкретной тематике. Кроме того, СП дает возможность использовать при переводе ранее накопленные словарные массивы. В отличие от основного политематического словаря и дополнительных тематических словарей, содержимое которых может изменяться только разработчиками системы машинного перевода, словарь пользователя может создаваться и изменяться пользователем по своему усмотрению.

По структуре словарных статей словарь пользователя аналогичен основному политематическому и дополнительным тематическим словарям, но он отличается от них количеством возможных вариантов перевода, указываемых для входных наименований понятий. Здесь для каждого входного наименования понятия может указываться только один вариант перевода. Отличается словарь пользователя также и способом его хранения в файле. Это связано с необходимостью оперативного изменения содержимого словаря, и тем, что его объем значительно меньше, чем объем словарей других типов.

Каждая запись СП описывает наименование одного понятия исходного языка, которое может иметь длину от одного до 17-тислов. Его переводной эквивалент также может иметь длину от одного до 17-ти слов. Словарь может включать до 65 тысяч словарных статей.

Пользователь системы RETRANS может создавать практически неограниченное количество своих словарей по различным тематикам, но в процессе перевода конкретного текста используется только один словарь. При необходимости, можно объединить несколько словарей в один словарь.

2.1 Описание системы Web Vista

В интерактивном режиме работы пользователь имеет возможность просматривать все варианты перевода слов и словосочетаний содержащиеся в словарях, изменять их приоритет, добавлять новые переводные эквиваленты, а также выполнять другие операции над промежуточными результатами перевода. В промежуточных результатах перевода эквивалент, выбранный из СП, будет стоять первым в списке возможных вариантов перевода наименования понятия. Затем будут располагаться варианты перевода, выбранные из дополнительного тематического словаря, в том порядке, в котором они записаны в словаре. За ними - варианты перевода из основного политематического словаря.

Тем же авторским коллективом разработана новая версия системы фразеологического машинного перевода, получившая название "система Vista". Эта версия реализована в нескольких модификациях:

1. Система, работающая в среде текстового процессора MS Word 2000 (система Word Vista).

2. Система, работающая в среде Web-браузера MS Internet Explorer5.0 и выше (система Web Vista).

3. Система массового обслуживания, устанавливаемая на сервере IIS 4.0 и выше и используемая в режиме удаленного доступа стандартными Windows-клиентами (например, MS Word, MS Internet Explorer и любыми другими приложениями, способными копировать текст в "Буфер Обмена") на основе протоколаHTTP (т.е. работающая как в среде Internet, так и в среде Intranet).Эта система получила название Net Vista.

4. Система, работающая с любыми Windows-приложениями, способными копировать текст в "Буфер Обмена" (Clipboard). Эта система получила название Clip Vista.

Система Word Vista обладает тем достоинством, что человек, имеющий опыт работы с редактором типа Word, может с помощью этой системы начать перевод текстов практически без предварительной подготовки. При этом он может пользоваться всеми возможностями редактора Word.

Система Web Vista может оказаться незаменимым средством общения с системой Internet для лиц, знающих русский язык, но не знающих английского, или, наоборот, знающих английский язык, но не знающих русского. Она может также использоваться для перевода любых документов, представленных в виде Web-страниц (например, электронной версии Британской Энциклопедии). При этом во всех случаях сохраняется внешний вид переведенной страницы.

Система Net Vista позволяет пользователям, расположенным в любой точке земного шара, осуществлять перевод текстов с русского языка на английский и с английского на русский в режиме удаленного доступа к этой системе. При этом сами текстовые документы могут храниться в любой другой точке земного шара, а перевод выполняться в третьей точке.

Система Clip Vista может быть полезна при работе с простыми программами типа MS Notepad, MS Wordpad, MS Paint и им подобными, а также при обработке различных электронных форм, например, при заполнении резюме или вводе поискового запроса, если требуется использовать другой язык.

В случае необходимости, на ЭВМ пользователя могут устанавливаться несколько модификаций системы Vista одновременно. При этом ядро процедурных средств и словарные средства системы будут установлены только в одном экземпляре.

Основные политематические машинные словари системы Vista (русско-английский и англо-русский) включают в свой состав терминологию по естественным и техническим наукам, экономике, бизнесу, политике, законодательству и военному делу.

Кроме основных политематических машинных словарей в состав системы Vista входят двенадцать дополнительных тематических словарей, включающих лексику родственных тематик. Эти словари содержат словарные статьи только тех слов и словосочетаний из политематических словарей, которые в рамках каждой тематической группы имеют приоритетные переводные эквиваленты, отличные от приоритетных переводных эквивалентов основных словарей. В дополнительных тематических словарях лексические единицы (слова и словосочетания)могут иметь не более двух переводных эквивалентов (в политематическом словаре их может быть до пяти).

В процессе перевода текстов поиск переводных эквивалентов лексических единиц, входящих в их состав, ведется в политематическом словаре и в одном из дополнительных тематических словарей (по выбору пользователя). При синтезе выходного текста переводные эквиваленты дополнительного словаря считаются более приоритетными, чем переводные эквиваленты политематического словаря.

Машинные словари системы VISTA могут корректироваться и пополняться в процессе перевода текстов в интерактивном режиме. В этом режиме есть возможность обнаруживать слова и словосочетания, для которых в словаре не указаны переводные эквиваленты или эти эквиваленты не соответствуют контексту или указано несколько эквивалентов, но на первом месте стоит эквивалент, не соответствующий контексту. В случае отсутствия переводных эквивалентов у некоторых слов они могут быть указаны человеком; если эквиваленты не соответствуют контексту, они могут быть заменены; если их несколько, то есть возможность выбрать только те из них, которые соответствуют контексту.

В составе системы VISTA есть пакет программ, который позволяет обнаруживать редакционные правки, сделанные переводчиком, формировать на их основе словарные статьи и вводить их в дополнительные словари соответствующей тематики. Таким образом, систему машинного перевода можно настраивать на различные предметные области.

Системы фразеологического перевода RETRANS и VISTA следует рассматривать лишь как первые шаги в развитии систем подобного типа. Предстоит еще большая работа по совершенствованию их процедурных и декларативных средств. Особенно трудной является задача создания достаточно мощных фразеологических словарей.

3. Гипертекстовые системы

Технологически в основе ги?ертекста лежат компьютерные программы, которые поддерживают следующие базовые функции:

1. обес?ечение быстрого просмотра информационного массива (браузинг);

2. обработка ссылочных отношений (обращение и вызов фрагмента текста или другой информации, на которую производится отсылка);

3. навигация по ги?ертексту, запоминание маршрута движения; представление пути движения в легко воспринимаемой форме;

4. возможность формирования обычного линейного текста как результата движения по ги?ертексту;

5. дополнение ги?ертекста новой информацией;

6. введение новых отношений в структуру ги?ертекста (для систем с жесткой структурой).

Программные оболочки ги?ертекста, как правило, универсальны. Они могут использоваться в различных областях для создания тематически разных ги?ертекстов. Таковы, например, оболочка ZOG и разработанная на ее основе промышленная ги?ертекстовая система KMS (университет Карнеги-Меллон, США). Сферы применения этих ги?ертекстовых систем необычайно разнообразны - от работы с документацией и поддержки электронной почты до ги?ертекстов, предназначенных для экс?ертов, работающих над бюджетом. Имеются и с?ециализированные системы. Так, система NoteCards (продукт компании "Xerox PARC") предназначена для аналитической работы, а система WE, моделирующая особенности получения нового знания - для помощи в авторской работе. Наиболее популярны сегодня программные пакеты HyperCard компании "Apple". Они относительно просты в использовании. Ги?ертекст в оболочке HyperCard представляется в виде каталожных карточек. Пользователь с помощью довольно простого интерфейса организует структуру карточки и устанавливает связи между карточками. Пакеты HyperCard позволяют сочетать различные типы информации, в частности карточки могут включать графическую, звуковую и др. информацию. Следует отметить, что современные базы данных также включают поля для визуальной и звуковой формы данных (ср., например, базу данных ACCESS 7, работающую в среде Windows). Близка к HyperCard по своим свойствам и программа SuperCard фирмы "Silicon Beach". Некоторые системы ги?ертекста содержат специальные средства ориентации пользователя в ги?ерпространстве - карты или закладки, отмечающие наиболее посещаемые узлы ги?ертекста. Комплексом средств ориентации обладает система Hypergate Writer фирмы "Eastgate Systems Inc".

3.1 Элементы типологии гипертекста

Первое противопоставление относится к структуре ги?ертекста. Ги?ертекст может быть иерархическим или сетевым. Иерархическое - древовидное - строение ги?ертекста существенно ограничивает возможности ?ерехода между его компонентами. В таком ги?ертексте отношения между компонентами напоминают структуру тезауруса, основанного на родовидовых связях. Иерархический ги?ертекст не реализует всех возможностей технологии ги?ертекста. В среде разработчиков ги?ертекстовых систем он не пользуется популярностью (хотя и довольно часто реализуется в работающих системах).

Второе противопоставление характеризует не саму структуру ги?ертекста, а возможности программного обес?ечения.

Примером простого программного обес?ечения ги?ертекста может служить электронное оглавление документа, которое позволяет ?ерейти к любой части оглавления, минуя этап просмотра всего текста. К простому ги??ртексту относится и система, которая дает возможность просматривать отсылки к литературе, содержащиеся в тексте, не обращаясь непосредственно к списку литературы. Сложные ги?ертексты обладают богатой системой ?ереходов между компонентами ги?ертекста, в них отсутствует представление о базовом тексте, с которым связаны второсте?енные по значимости тексты. В некотором смысле нормальный, обычный ги?ертекст и является сложным ги?ертекстом.

По способу существования ги?ертекста выделяются статические и динамические ги?ертексты. Статический ги?ертекст не меняется в процессе эксплуатации; в нем пользователь может фиксировать свои комментарии, однако они не меняют существо дела. Для динамического ги?ертекста изменение является нормальной формой существования. Обычно динамические ги?ертексты функционируют там, где необходимо постоянно анализировать поток информации, то есть в информационных службах различного рода. Ги?ертекстовой является, например, Аризонская информационная система (AAIS), которая ежемесячно пополняется на 300-500 рефератов в месяц.

Отношения между элементами ги?ертекста могут изначально фиксироваться создателями, а могут порождаться всякий раз, когда происходит обращение пользователя к ги?ертексту. В ?ервом случае речь идет о ги?ертекстах жесткой структуры, а во втором - о ги?ертекстах мягкой структуры. Жесткая структура технологически вполне понятна. Технология организации мягкой структуры должна основываться на семантическом анализе близости документов (или других источников информации) друг к другу. Это нетривиальная задача компьютерной лингвистики. В настоящее время широко распространено использование технологий мягкой структуры на ключевых словах. Переход от одного узла к другому в сети ги?ертекста осуществляется в результате поиска ключевых слов. Поскольку набор ключевых слов каждый раз может различаться, каждый раз меняется и структура ги?ертекста. Жесткость или мягкость архитектуры ги?ертекста зависит и от количества информации, которая в нем содержится. Если узлов в сети ги?ертекста порядка одной-трех тысяч, то чаще всего используется жесткая архитектура, если же количество узлов достигает нескольких десятков тыс. или даже миллионов единиц, то мягкая структура оказывается более предпочтительной, поскольку кодировка жестких связей отнимает слишком много времени. Заметим, что структура Интернета часто функционирует как ги?ертекст мягкой архитектуры.

Технология построения ги?ертекстовых систем не делает различий между текстовой и нетекстовой информацией. Между тем включение визуальной и звуковой информации (видеороликов, картин, фотографий, звукозаписей и т.п.) требует существенного изменения интерфейса с пользователем и более мощной программной и компьютерной поддержки. Такие системы получили название ги?ермедиа или мультимедиа. Наглядность мультимедийных систем предопределила их широкое использование в обучении, в создании компьютерных вариантов энцикло?едий. Известны, например, прекрасно выполненные CD-ромы с мультимедийными системами по детским энцикло?едиям издательства "Дорлинг Киндерсли".

Заключение

В системах автоматической обработки текстовой информации важную роль играет компьютерная лингвистика. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке).

Важной методологической проблемой компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. При решении прикладных задач компьютерной лингвистики основной акцент следует делать на декларативные средства, но процедурные средства, в том числе грамотный компьютерный интерфейс тоже играют не последнюю роль.

Традиционные методы преодоления языковых барьеров - это обучение иностранным языкам и переводческая деятельность. Но с ростом экономических, политических и культурных связей между странами и повышением интенсивности информационных потоков между ними эти методы становятся недостаточными. Возникла необходимость искать альтернативные пути решения проблемы. И одним из них может явиться создание систем фразеологического машинного перевода.

Систему фразеологического машинного перевода RETRANS следует рассматривать лишь как первый шаг в указанном направлении. Предстоит еще большая работа по совершенствованию ее процедурных и декларативных средств. Особенно трудной является задача создания достаточно мощных фразеологических словарей, которые могут иметь объем несколько сотен миллионов словарных статей.

Список использованных источников

1. Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А. Компьютерная лингвистика и перспективные информационные технологии. М., 2004.

2. Белоногов Г.Г., Зеленков Ю.Г., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. Системы фразеологического машинного перевода. Состояние и перспективы развития. Сб. "Нано-техническая информация" сер. 2, N 12, ВИНИТИ, 1998 г.

3. Белоногов Г.Г., Зеленков Ю.Г., Новоселов А.П., Хорошилов Ал-др А., Хорошилов Ал-сей А. Метод аналогии в компьютерной лингвистике. Сб. "Научно-техническая информация" сер. 2, N 1, ВИНИТИ, 2000 г.

4. Панов Д.Ю., Ляпунов А.А., Мухин И.С. Автоматизация перевода с одного языка на другой: Сессия по научным проблемам автоматизации производства.- М.: изд. АН СССР, 1956.

5. Убин И.И. Современные средства автоматизации перевода: надежды, разочарования и реальность. Сб. "Перевод в современном мире". ВЦП, 2001.

Размещено на Allbest.ru

...

Подобные документы

  • Место и роль компьютерной лингвистики в лингвистических исследованиях. Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике. Современные интерфейсы компьютерной лингвистики. Перспективная задача компьютерной лингвистики.

    курсовая работа [28,5 K], добавлен 22.11.2009

  • Компьютерная лингвистика - особая прикладная дисциплина. Когнитивный инструментарий компьютерной лингвистики, омонимичность его основных понятий. Использование компьютерных средств обработки языковых данных. Гипертекстовые технологии представления текста.

    реферат [37,2 K], добавлен 08.08.2010

  • Программы работы с текстами: MS-DOS Editor, Word Pad, блокнот, word, текстовый процессор. Редакторы для обработки документов. Стили форматирования. Двоичное кодирование текстовой информации в компьютере. Операции технологического процесса ее обработки.

    курсовая работа [324,0 K], добавлен 25.04.2013

  • Обзор проблем автоматической обработки текстовой информации, представленной естественными языками. Изучение сведений об исправлении опечаток, моделей ошибок опечаточников. Анализ улучшения качества работы исправителя опечаток в рамках проекта Dictum.

    реферат [68,1 K], добавлен 11.07.2012

  • Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.

    реферат [19,0 K], добавлен 02.11.2008

  • Базовые основы программы Prolog - языка и системы логического программирования. Работа с текстами и предложениями. Электронный казахско-русско-английский словарь. Дистанционный комплекс обучения государственному языку специалистов технического профиля.

    реферат [45,6 K], добавлен 15.09.2014

  • Характеристика средств обработки текстовой информации, способы редактирования и форматирования документов. Порядок создания списков и таблиц, проверка орфографии и синтаксиса текста. Выбор формата файла. Работа в табличном процессоре Microsoft Excel.

    курсовая работа [411,1 K], добавлен 27.04.2013

  • Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.

    дипломная работа [3,0 M], добавлен 06.03.2012

  • Режимы компьютерной обработки данных. Централизованный, децентрализованный, распределенный и интегрированный способы обработки данных. Средства обработки информации. Типы ведения диалога, пользовательский интерфейс. Табличный процессор MS Excel.

    курсовая работа [256,9 K], добавлен 25.04.2013

  • Обзор электронного документа, его информационное содержание и виды. Разработка программы автоматической обработки текстовых материалов: выбор сред разработки, извлечение понятийной области, получение стека суждений. Стандарты кодирования информации.

    дипломная работа [3,9 M], добавлен 10.05.2014

  • Анализ перспектив развития средств обработки текстовой и графической информации. Выбор программного обеспечения обработки информации, технических средств, периферийных устройств. Исследование особенностей работы с программой деловой графики MS Visio.

    курсовая работа [616,2 K], добавлен 04.05.2013

  • Основные допечатные процессы подготовки издания. Технологическая схема компьютерной подготовки текстовой информации. Выбор варианта оформления, формата, гарнитуры и кегля. Основные правила компьютерного набора. Верстка в программе Adobe InDesig.

    курсовая работа [250,5 K], добавлен 22.01.2015

  • Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

    презентация [469,2 K], добавлен 15.03.2015

  • Характеристика автоматической системы управления технологическим процессом жидких и газообразных сред, необходимость и методика ее реконструкции. Техническое описание средств измерений АСУ ЖГС и системы обработки информации, их совершенствование.

    дипломная работа [1,3 M], добавлен 11.03.2011

  • Проблема представления знаний. Представление декларативных знаний как данных, наделенных семантикой. Представление процедурных знаний как отношений между элементами модели, в том числе в виде процедур и функций. Представление правил обработки фактов.

    курсовая работа [33,1 K], добавлен 21.07.2012

  • Преступления, совершенные с использованием компьютерной информации. Виды компьютерной преступности, группы организационно-технических мер по ее предупреждению. Причины и условия, способствующие совершению преступлений. Правовая ответственность за них.

    реферат [29,0 K], добавлен 01.04.2011

  • Первые электронно-вычислительные машины. Начало компьютерной индустрии США. Государственная поддержка зарождавшейся индустрии. Послевоенная ситуация на американском рынке устройств обработки информации. Оборудование IBM.

    реферат [15,1 K], добавлен 05.06.2004

  • Представление графических данных. Растровая, векторная и фрактальная виды компьютерной графики. Цвет и цветовые модели: метод кодирования цветовой информации для ее воспроизведения на экране монитора. Основные программы для обработки растровой графики.

    реферат [429,7 K], добавлен 01.08.2010

  • Понятие информации как одно из фундаментальных в современной науке и базовое для информатики. Дискретизация входной информации как условие пригодности для компьютерной обработки. Понятия, виды, свойства информации, ее классификация. Информация и рынок.

    курсовая работа [31,0 K], добавлен 12.10.2009

  • Определение возможностей средств и языков для разработки сайта, требований, предъявляемых к текстовой и графической информации, представленной на экране монитора. Характеристика технологии создания RIA-приложений, Flash-компонентов и Active-x-объектов.

    курсовая работа [3,0 M], добавлен 17.03.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.