Информационные системы

Проблема информационного поиска в базах знаний. Особенности функционирования интеллектуальных систем. Возникновение и развитие идеи гипертекста. Логико-смысловой граф и логика связности информации. Концепция фразеологического машинного перевода.

Рубрика Программирование, компьютеры и кибернетика
Вид лекция
Язык русский
Дата добавления 28.09.2018
Размер файла 57,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http: //www. allbest. ru/

1. Информационные системы

1.1 Информационно-поисковые системы

За последние десятилетия в области информационного поиска произошли важные изменения, которые требуют принципиально новых подходов и решений. В крупных банках данных накоплено огромное количество источников информации. Насчитываются десятки тысяч общедоступных базы данных, в которых содержатся миллиарды записей. В них ежегодно проводятся десятки миллионов информационных поисков. Почти на каждый из них информационно-поисковые системы теперь быстро выдают сотни и тысячи источников, т. е. слишком много, чтобы потребитель был в состоянии все прочитать или хотя бы просмотреть. Поэтому потребитель вынужден ужесточать свои требования к выдаваемым источникам. Возникла возрастающая потребность в значительном усилении критериев выдачи релевантных документов, более строгом их отборе, для чего необходима разработка и применение других принципов, переход на моделирование - пусть вначале даже самое грубое - процессов информационного поиска в памяти человека. Ясно, что поиск информации в памяти человека осуществляется совершенно иначе, чем посредством современных информационно_поисковых систем.

Другой важный фактор, все сильнее воздействующий на сферу информационного поиска, заключается в появлении и росте численности полнотекстовых БД, представляющих собой электронные аналоги печатных изданий и документов - энциклопедий, словарей, справочников, книг, журналов и т. п. Это обусловлено расширяющимся внедрением современных средств вычислительной техники в издательское дело и полиграфию.

Опыт информационного поиска в полнотекстовых БД, когда поиск проводится не по поисковым образам документов, а по их полным текстам, показывает, что использование ключевых слов, встречающихся в полных текстах, не дает тех результатов, которые получаются в первом случае. Хотя использование полных текстов документов создает новые, дополнительные возможности для повышения эффективности поиска (например, благодаря использованию библиографических ссылок как поисковых признаков), стало ясно, что необходима разработка существенно новых принципов информационного поиска по полным текстам документов, основанных на результатах исследования механизмов человеческого мышления и на использовании баз знаний и опыта, накопленного при разработке и эксплуатации экспертных систем, систем машинного перевода и других интеллектуальных информационных систем.

Проблема информационного поиска весьма существенно усложнилась еще в одном отношении.

Если раньше объектом поиска были источники информации, то теперь возрастает потребность в поиске самой информации, которая при этом не всегда имеется в поисковом массиве в явном виде. Для получения такой информации необходимо выполнять над текстами источников или записями фактов те или иные логические операции, требующие привлечения определенных знаний о мире, которые непосредственно не содержатся в этих текстах и записях.

Такого рода знания отображаются в базах знаний, простейшими примерами которых могут служить информационно-поисковые тезаурусы и таблицы классификации. Кроме того, необходимо учить компьютеры «понимать» тексты и факты, оценивать их, рассуждать, делать логические выводы, формулировать гипотезы, т. е. выполнять многие интеллектуальные операции, присущие человеческому мозгу.

А это становится все более возможным по мере того, как мы узнаем все больше о механизмах человеческого мышления и учимся их моделировать. Таким образом, возрастает потребность в глубоком изучении процессов языкового и логического мышления, в создании и использовании информационно-логических, или интеллектуальных систем, которые сами становятся мощнейшим инструментом исследования этих процессов.

1.2 Интеллектуальные информационные системы

В настоящее время зрелость информатики как науки характеризуется тем, что в ней взаимодействуют теория вычислений, алгоритмических языков и архитектуры компьютеров, а также искусственный интеллект, понимаемый как дисциплина об имитации и усилении рассуждений, и о восприятии и переработке информации посредством компьютера.

В результате развития этих разделов информатики стало возможно создание нового информационного продукта - интеллектуальных систем. Интеллектуальные системы реализуют взаимодействие «человек - компьютерная система» таким образом, что они, являясь человеко-машинными системами, образуют симбиоз (человек, компьютерная система). Компьютер в диалоговом режиме усиливает комбинаторное мышление и логические возможности человека. С этим фактом связано возникновение новой информационной технологии, реализующей функционирование интеллектуальных систем по следующей схеме:

Интеллектуальная система = рассуждающая система + поисковая система + интеллектуальный интерфейс

Интеллектуальная система - открытая система, принимающая решение с использованием новой поступающей информации, если она релевантна цели рассуждения. Таким образом, поисковая система оказывается средством принятия решения в интеллектуальной системе. Очевидно, что поисковая система может использоваться в двух режимах: в автоматическом - для подбора информации, близкой решаемой задаче, в диалоговом - для отбора информации, релевантной цели рассуждения, которая задана пользователем на некотором этапе работы системы.

Информационно-поисковая система как подсистема интеллектуальной системы должна обладать как механизмом поиска фактов, так и механизмом поиска документов. Высокоразвитая информационно-поисковая система (ее можно назвать интеллектуальной информационно-поисковой системой) должна обладать процедурами извлечения фактов, пополняющих базы данных из текстов на естественных языках. Это делает возможным полуавтоматическое (с использованием диалога пользователя и системы) расширение базы знаний, которая пополняется индуктивными обобщениями. Интеллектуальные системы являются средством компьютерной обработки и анализа данных и знаний высокого уровня: они не только имитируют рассуждения квалифицированного эксперта, но и усиливают их.

Из сказанного следует, что охарактеризованные нами интеллектуальные системы являются системами поддержки и усиления интеллектуальной активности человека в том смысле, который декларировался авторами известного японского проекта компьютерных систем пятого поколения. Для отечественных условий, в которых создаются интеллектуальные системы, разумеется, специфичны трудности реализации конструктивных идей, воплощенных в современных по замыслам, логическим и программным средствам системах, так как для задач большой комбинаторной сложности требуется применение суперкомпьютеров и рабочих станций. В настоящее же время многие отечественные интеллектуальные системы созданы для персональных компьютеров. В связи с этим актуальной является задача создания сетей с использованием больших ЭВМ.

Интеллектуальные системы как инструмент новой информационной технологии обладают некоторыми новыми (по сравнению с информационными системами предшествующих поколений) возможностями. Например, при прогнозировании биологических активностей химических соединений интеллектуальные системы могут содержать как информацию о химических соединениях (физико-химические и стереохимические данные), так и информацию о путях их воздействия на организм (биохимические данные) и о противопоказаниях лекарственных соединений (медицинские и экологические данные).

В ВИНИТИ разрабатываются интеллектуальные системы типа ДСМ, названные так по имени английского философа Джона Стюарта Миля. Эти системы применяются для прогнозирования свойств структурированных объектов в базах данных с неполной информацией для задач фармакологии, медицины и технической диагностики. Они могут быть применены и в других областях науки (например, в социологии), где знания слабо формализованы, данные хорошо структурированы, а в базах данных содержатся как положительные, так и отрицательные примеры некоторых эффектов.

1.3 Гипертекстовые системы

Возникновение и развитие идеи гипертекста

Гипертекст - это форма организации текстового материала, при которой его смысловые единицы (фразы, абзацы, разделы) представлены не в линейной последовательности, а как система явно указанных возможных переходов, связей между ними. Следуя этим связям, можно читать материал в любом порядке, образуя разные линейные тексты. Если речь идет о достаточно обширном материале с большим количеством связей, то возникает весьма сложное гипертекстовое пространство (сеть). Формирование и просмотр такой сети текстовых единиц возможны только при помощи компьютера.

Компьютерная гипертекстовая технология в самой общей форме понимается как "поддержка связей", т. е. обеспечение максимальной комфортности для пользователя при формировании и обработке сети связей. Имеется в виду, прежде всего, предоставление пользователю возможности легко добавлять в базу данных новые текстовые единицы, указывая их связи с уже имеющимися (было бы оптимально, если бы эти связи устанавливались автоматически на основе учета значения служебных слов). Не менее важна для пользователя и простота перемещения по образованной сети, т. е. возможность "читать" гипертекст в любом задуманном порядке.

Широкое внимание научной общественности к этой идее было привлечено несколько лет назад, когда на рынке компьютерных программ стали появляться системы, предназначенные для необычной интеллектуальной деятельности составления текста, имеющего нетрадиционную, "нелинейную" форму. Смысловые элементы этого текста могут читаться в разной последовательности, в соответствии с "разрешенными" смысловыми переходами, которые так или иначе указаны автором.

Теперь становится ясно, что успехи в развитии вычислительной техники и программирования позволили реализовать идеи, давно разрабатывавшиеся в недрах информатики. Возможности и тенденции развития информационной технологии в данном направлении были угаданы и верно предсказаны пионерами информатики. П. Отле, имя которого большинству специалистов известно лишь в связи с созданной им в 1905 г. Универсальной десятичной классификацией (УДК), уже в начале нашего века понимал необходимость упорядочения всемирной системы научной коммуникации.

В его докладе на Международном конгрессе по библиографии и документации (Брюссель, 1908) была высказана мысль, содержавшая зерно гипертекстовой технологии: "Средствами организации научной работы является книга и особенно ее нынешняя форма - журнал. Развитие науки шагнуло так далеко, что единственно правильным, соответствующим действительности подходом будет рассматривать все книги, все журнальные статьи, все официальные отчеты как тома, главы, параграфы одной великой книги, универсальной книги, исполинской энциклопедии, составленной из всего того, что было напечатано...".

Следует, конечно, учитывать, что эта мысль была высказана в начале нашего века и ориентирована на технические возможности того времени. И хотя по теперешним понятиям они были весьма ограниченными, П. Отле предвидел современные достижения вплоть до систем теледоступа к банкам данных. В 1934 г. в "Трактате о документации" он писал: "Любой человек сможет прочесть издалека спроецированный на его персональный экран отрывок, расширенный или суженный до объема необходимого предмета. Тем самым, сидя в своем кресле, каждый сможет созерцать весь мир или отдельные его части".

Статья другого видного предтечи информатики В. Буша (1890-1974) "Возможный способ нашего мышления", опубликованная в 1945 г., получила всемирную известность в свое время и до сих пор считается наиболее значимым прогнозом развития информатики. На нее ссылаются и почти все пишущие о гипертексте, так как в ней впервые было ясно показано, что неизбежная специализация научных интересов и ассоциативный характер мышления ученых приходят во все большее противоречие с традиционной информационной технологией. Человеческий мозг, по мнению В. Буша, работает совсем не так, как традиционные информационно-поисковые системы, - он мыслит ассоциативно. Получив информацию, ученый моментально испытывает потребность в другой информации, причем эта потребность возникает по ассоциации мысли, в соответствии с сетью связей между клетками мозга. Желая имитировать этот мыслительный процесс техническими средствами, В. Буш предложил создать «расширитель памяти» - Memex, который хотя и не был построен, послужил прототипом микрофильмовых селекторов и других поисковых устройств. В начале 60_х годов эти идеи были использованы Д. Энгельбартом и Т. Нельсоном, которые независимо друг от друга работали над созданием автоматизированных систем информационного поиска.

Как известно, Т. Нельсон является создателем термина "гипертекст", впервые приведенного им в докладе на конференции, а затем в статье 1967 г.; он привел этот термин в следующем контексте: "Современные информационно-поисковые системы как документального, так и фактографического типа не всегда могут удовлетворить запросы специалистов. Применение совершенных методов хранения и отображения текста в цифровой форме обеспечивает потенциальную возможность построения массива информации по крайней мере одного нового мощного вида: гипертекста или нелинейного текста. Ему будут свойственны отличительные черты книги и фильма... Гипертекст может отличаться от обычного текста порядком следования материала (его элементы могут размещаться в виде иерархического дерева или сети, он может иметь несколько уровней краткости изложения и детализации материала), способом его представления (воспроизведение движущихся и преобразуемых иллюстраций) и т. д.".

В то время и доклад и основанная на нем статья Т. Нельсона прошли незамеченными или в лучшем случае были восприняты как очередная компьютерная фантазия. И лишь спустя десятилетия идея гипертекста получила практическое воплощение, а сфера ее применения быстро расширяется. Со времени этих первых работ 60-х годов и до середины 80-х годов идея гипертекста переживала "инкубационный" период, когда многочисленные разработки, развивающие отдельные стороны этой идеи, велись разрозненно в рамках разных научных направлений.

Логико-смысловой граф и логика связности

Гипертекст всегда представляет собой некоторую сеть или граф, отображающие систему связей между смысловыми единицами текста. Свойства гипертекста, его функциональные возможности в значительной степени зависят от структурных характеристик гипертекстовой сети. Она может иметь разную степень сложности, быть иерархической или циклической, члениться на обособленные части, быть "стройной" или "хаотичной". Чем более сложной, запутанной, насыщенной циклами является структура гипертекста, тем труднее его освоение как в функции чтения, так и в функции подготовки текста. Почти все авторы отмечают, что в гипертексте можно "заблудиться", потерять ориентацию, не найти удобных путей чтения и письма. гипертекст поиск машинный перевод

Можно трактовать семантические графы не как отображения текстов, а как представление знаний о предметных областях. Это явилось промежуточным этапом на пути к смысловым сетям, которые стали служить самостоятельным авторским средством изложения своих знаний и представлений о соответствующей предметной области. При формировании смысловых графов автор должен пользоваться определенными критериями и процедурами, чтобы отличать прямую смысловую связь от косвенной. Смежными по смыслу считались лишь те понятия и утверждения, которые можно объединить при помощи логических связок (типа "есть", "является причиной", "поэтому", "в этих целях" и т. п.). После того как был принят этот своеобразный критерий связи, направление стало называться "логико-смысловым моделированием", а логико-смысловые графы вплотную приблизились к гипертекстам. Их можно было читать, вставляя при переходе к смежному узлу соответствующую логическую связку.

Логико-смысловые графы, действительно, можно рассматривать как одну из версий гипертекста. Но введение критерия связи повело и к другим важным следствиям. Стал применяться принцип полноты связей, т. е. связь стала фиксироваться для всех пар высказываний, которые могли быть соединены связкой. Для каждого нового высказывания, вводимого в логико-смысловой граф, нужно было указать все его связи с высказываниями, уже имеющимися в этом графе. Это, конечно, создавало технологические трудности подбора "кандидатов на связь". Но именно принцип полноты связей открыл путь к исследованию структурных характеристик смысловой сети.

Стали значимыми такие характеристики, как число связей высказывания (степень соответствующей вершины графа), показатель центральности (сумма расстояний от данной вершины до всех других), наличие и число путей между какими-либо вершинами. При этом структурные характеристики получают содержательное толкование. Например, число связей высказывания можно рассматривать как признак его относительной значимости в рамках данной системы суждений. Появилась возможность представления предметной области с разной степенью детализации путем построения укрупненных графов, включающих лишь те смысловые единицы, у которых число связей превышает определенный порог. Но и для самого гипертекста здесь таятся интересные возможности: ведь таким способом в его смысловой сети можно автоматически отыскивать предпочтительные пути.

Логико-смысловой граф оказывается адекватным средством для анализа связности, для исследования систем, у которых ценится высокая связность. Так могут интерпретироваться социальные позиции, системы взглядов, научные концепции, новые идеи, которые должны обладать единством, целостностью. Все элементы такого смыслового образования - принципы, утверждения, аргументы - должны быть хорошо связаны между собой, а не являться набором разрозненных высказываний. Взаимосвязанность положений концепции обычно ощущается непосредственно, интуитивно. Однако довольно часто возникает необходимость представить эти связи эксплицитно, особенно если концепция претендует на практическое воплощение и затрагивает интересы многих людей. Описываемый метод позволяет установить, насколько тесно конечные выводы связаны с тем материалом, на который они опираются.

Гипертекст как развитие функций чтения и письма

Известны гипертекстовые системы, в которых на первый план выступает функция чтения. Таковы, например, учебные и справочные системы, в которых читатель сам выбирает, как ему двигаться при освоении материала в сети связанных по смыслу текстовых фрагментов, причем система подсказывает ему возможные варианты такого движения. В других случаях в качестве основной выступает функция письма, авторской работы по составлению текста. Здесь многовариантное представление фрагментов текста в виде сети возможных переходов используется для нахождения хорошей последовательности изложения.

В соответствии с этим в применении гипертекстовых систем сложилось несколько основных направлений. Одно из них - "электронная книга» - обеспечивает освоение материала с большим количеством ссылок и смысловых пересечений. В качестве объектов могут выступать справочные и учебные материалы, проектная и программная документация. Каждый предъявляемый пользователю текстовой фрагмент снабжается указанием всех его ссылок и возможных смысловых переходов к другим фрагментам. Другое направление применения гипертекстовых систем - компоновка крупных текстовых материалов из фрагментов, которые первоначально представлены в форме сети с указанием их взаимных смысловых связей. Третье направление - представление в форме единого гипертекста идей, аргументов и предложений, вносимых участниками коллективной работы, рассмотрение и анализ взаимосвязи этих идей и аргументов.

Коммерческие гипертекстовые системы выпускаются с 1987 г. Наибольшую известность получили американские системы Guide, Hypercard и французская - Hyperdoc. Первая из них принадлежит американо-шотландской фирме Owl Technologies и привлекает своей простотой. Фактически Guide является развитой системой обработки текста с оригинальной концепцией 'кнопки". Любое слово или словосочетание в тексте может быть определено как "кнопка". В этом случае постановка над ним курсора активизирует определенное действие: замену слова другим, вызов комментариев, установление связей слова с другими текстами, формирование на экране окон.

Система Hypercard фирмы Apple для персональных компьютеров Macintosh представляет собой своеобразную электронную картотеку. Карточки могут содержать не только текст, но и изображения. Определенные места карточки являются "кнопками", нажатие на которые вызывает новые карточки, которые тоже имеют "кнопки". Это позволяет охватывать любое число карточек, связанных между собой иерархически, тематически, ассоциативно. Массивы могут обрабатываться независимыми программами, написанными на специальном языке Hypertalk. Это позволяет сделать изображения движущимися, проводить сложные виды поиска, генерировать музыкальное сопровождение, создать систему обработки текста и изображений. Можно считать, что эта система явилась полной реализацией Мемекса, предложенного В. Бушем.

Еще одной коммерческой системой является Hyperdoc, созданная французской фирмой GECI. Основное ее достоинство - независимость от характера данных и от аппаратных средств. Hyperdoc оперирует с текстами, чертежами, диаграммами, логическими схемами, реализуется на компьютерах IBM PC, Macintosh, Atari, Vax. Информационные массивы хранятся на оптических дисках. Любая зона экрана может быть ассоциирована с любой группой данных при помощи устройства "мышь". Наряду с межуровневыми связями каждый уровень может иметь свои связи. Hyperdoc легко сопрягается с системами обработки текста, электронной графики, издательскими пакетами, СУБД dBASE-3.

Интересным применением гипертекстовой технологии является представление в форме гипертекста Оксфордского словаря английского языка (322 тыс. статей, 56,3 млн слов, 2,4 млн ссылок). Это позволяет просматривать все связи между словами и их толкования с помощью программ, повышает эффективность справочного аппарата. Словарь служит основой установления гипертекстовых связей для других документов. Их тексты смогут связываться отношениями социтирования и тематической близости. Гипертекст будет использоваться и как средство совершенствования и редактирования словаря в рамках систем компьютерной лексикографии.

Отечественные гипертекстовые системы ГИПЕРЛОГ и СЕМПРО

Системы разработаны на основе многолетних исследований М. М. Субботина, о которых говорилось выше. Они реализуют функции и процедуры, позволяющие:

- формировать из элементов гипертекстовой базы данных связные, упорядоченные тексты на задаваемые пользователем темы;

- контролировать качество формируемого текста, выявлять в нем логические и смысловые разрывы;

- структурировать гипертекстовую базу данных, выявлять в ней комплексы тесно взаимосвязанных идей, понятий, проблем.

Эти функции и процедуры реализуются на основе оригинальных идей так называемой логизированной версии гипертекста. Системы предоставляют пользователю возможность при вводе фрагментов текста в базу данных устанавливать между ними связи (ссылочные, смысловые, логические, ассоциативные и другие), обеспечивают компьютерную поддержку этих связей и перемещение по ним. Таким образом, гипертекст формируется как совокупность взаимосвязанных фрагментов текста. Эти фрагменты могут представлять собой как целые документы, так и отдельные высказывания, формулировки идей, проблем, предложений, мероприятий, фактов. Система обеспечивает максимальную открытость гипертекста, возможность его пополнения, изменения структуры и содержания на любом этапе работы. Она не навязывает пользователю готовые схемы и ограничения на структуру представления информации.

Данные системы предназначены для использования в таких областях деятельности, как анализ проблем, изучение прецедентов, прогнозирование социальных явлений, обоснование управленческих решений, подготовка различных документов: обзоров, аналитических материалов, пояснительных записок, докладов и т. п. В ряду гипертекстовых систем общего назначения они выделяются тем, что позволяют посредством анализа структурных характеристик гипертекста увидеть в обозримой форме укрупненные комплексы проблем, узловые вопросы и аспекты. При формировании текстовых документов рассматриваемые системы позволяют увидеть в текстах логические пробелы, для устранения которых требуется дополнительная информация. Первая система реализована на основе СУБД Revelation, вторая - на специально разработанной СУБД, которая имеет более дружественный интерфейс и предоставляет большие возможности пользователю. Обе они могут функционировать на IBM-совместимых компьютерах в среде MS-DOS.

Системы гипермедиа как развитие гипертекста

Новые подходы к манипулированию информацией, хранящейся в ретроспективном фонде, открывают перспективы качественно иного, более эффективного использования постоянно возрастающего объема документальных источников информации. Принципиальной особенностью гипермедиа (их называют еще «гиперсредствами» или «системами гиперзаписи») является распространение идеи гипертекста, т. е. ассоциативно связанной текстовой информации, на изобразительную и звуковую информацию, хранящуюся в цифровой форме.

Информационные системы, обеспечивающие функционирование гипермедиа, должны иметь особые технические, программные и телекоммуникационные средства. Разумеется, эти средства создают лишь необходимые предпосылки для реализации систем гипермедиа, основу же их функционирования составляют алгоритмы и программы. Можно указать на некоторые из них:

- указатель к гиперБД, содержащий аннотированный перечень характеристик всего массива;

- карта связей гиперБД, отражающая в графической форме ее структуру и методы доступа к информации;

- средства передвижения пользователя в гиперБД и возможности создания им своих способов манипулирования данными;

- средства аудио- и видеоконтроля, обеспечивающие доступ к изобразительной и звуковой информации.

Поскольку гипермедиа не имеют пока точного определения, есть тенденция понимать их слишком широко. В одном из ранних определений говорилось: «Системы гипермедиа относятся к типу систем, базирующихся на использовании наиболее передовых технологий и технических средств и предназначенных для повышения эффективности и интенсификации процессов взаимодействия человека и всей среды, относящейся к знаниям». Данное определение подчеркивает основное функциональное назначение гипермедиа - обеспечивать эффективную коммуникацию между человеком и источниками знания, а также их связь с новыми для нашего времени технологиями, но оно, разумеется, носит слишком общий характер.

Не претендуя на свое определение гипермедиа, хотел бы сказать, что из всех возможных трактовок, предпочтительной является та, которая связывает эти системы с интеллектуальными информационными системами. Верно, что гипермедиа интегрирует цифровую запись текстовой, изобразительной и звуковой информации, но это чисто прикладная особенность данных систем, как и то, что они используют все существующие виды носителей оцифрованной информации. Все же основные функциональные характеристики этих систем связаны с решением принципиального вопроса о формализации представления и структурирования информации и алгоритмизации процессов ее обработки.

Системы гипермедиа, как и гипертекстовые, могут рассматриваться в разных аспектах. Один из подходов, близкий программистам, заключается в том, чтобы сравнить методы доступа к информации в гипертексте с соответствующими методами в СУБД. Эти методы различны: в гипертексте они опираются на ассоциативные связи между понятиями, а в СУБД - на структурные свойства данных. В соответствии с этим гипертекст можно рассматривать как систему ассоциативной организации и поиска информации. Между системами гипертекста и гипермедиа нет четкой границы. Следует иметь в виду, что в последнее время термин «гипермедиа» используется все реже, так как заменяется термином «мультимедиа», который первоначально означал систему совместного использования цифровой и аналоговой записи информации (например, компьютерного текста и видеоизображений).

Эти системы представляют собой этапное достижение в развитии информационной технологии, ориентированной в первую очередь на обработку знаний. Новые возможности интерактивного доступа человека к неограниченным объемам накопленных знаний, обусловленные широким использованием вычислительной техники и интеграцией различных носителей информации, создают предпосылки для повышения творческой активности человека.

Многие специалисты высоко оценивают перспективы технологий гипертекста и гипермедиа, считая, что эти технологии вышли на уровень стратегических ресурсов компьютерных корпораций.

1.4 Системы машинного перевода

В современную эпоху научно-технической революции и информатизации общества возросла интенсивность общения между народами и странами. Однако этот процесс в значительной мере тормозится языковыми барьерами. Обучение иностранным языкам и переводческая деятельность в какой-то мере смягчают остроту проблемы, но полностью ее не решают. Более радикальным решением является создание систем автоматического перевода текстов с одних естественных языков на другие. Такие системы создаются во многих развитых странах мира, однако качество автоматического перевода оставляет желать лучшего.

Многие выдающиеся лингвисты вообще ставили под сомнение - и не без основания - возможность адекватного перевода текстов с одного естественного языка на другой, как это ни парадоксально звучит в эпоху интенсивной переводческой деятельности. Для получения на практике адекватного перевода необходимо использование экстралингвистической информации, т. е. такой, которая не содержится в переводимом тексте, но существует в виде накопленного общественного знания. Это и служит основным препятствием для полностью автоматического (т. е. осуществляемого без участия человека) перевода с одного языка на другой. Поэтому, говоря о машинном переводе, мы подразумеваем лишь частично автоматизируемую деятельность, в которой на разных ее этапах участвует человек. Поскольку перевод специальных текстов при помощи компьютера может быть значительно облегчен и ускорен, системы машинного перевода стали полезным инструментом в работе переводчика и важным фактором снижения затрат в этой области.

Человеческий перевод текстов с одних естественных языков на другие - это сложный мыслительный процесс. Он осуществляется на основе восприятия исходного текста и последующей передачи его смысла средствами выходного языка. При этом переводятся не слова и их последовательности, а понятия и мыслительные образы, порождаемые в сознании переводчика под их воздействием. Системы машинного перевода текстов предназначены для моделирования работы человека-переводчика. Но если моделировать эту работу в полном объеме пока не представляется возможным, то нужно, по крайней мере, стремиться при машинном переводе оперировать теми единицами языка и речи, которые позволяют наиболее точно передавать содержание текста, написанного на одном языке, средствами другого языка. Такими единицами являются, прежде всего, фразеологические обороты и терминологические словосочетания и, во вторую очередь, отдельные слова. Поэтому перспективные системы машинного перевода должны опираться на фразеологическое богатство естественных языков. Они должны быть системами фразеологического перевода.

Концепция фразеологического машинного перевода была впервые четко сформулирована профессором Г. Г. Белоноговым в 1975 г. Далее она была развита и в настоящее время реализована в ВИНИТИ в виде двух систем: системы русско-английского перевода (RETRANS) и систем англо-русского перевода (ERTRANS)

Если в других системах перевода в качестве основной минимальной единицы смысла, представляемой в машинных словарях, рассматривается слово и их можно охарактеризовать как системы преимущественно пословного семантико-синтаксического перевода, то в системах фразеологического перевода в качестве основной единицы смысла считаются фразеологические словосочетания, выражающие понятия, отношения между понятиями и ситуации. Это позволяет точнее передавать смысл переводимых текстов.

Как уже было указано, система RETRANS предназначена для перевода текстов с русского языка на английский. Тематика переводимых текстов включает широкий спектр предметных областей: экономику, коммерческую деятельность, машиностроение, электротехнику, энергетику, транспорт, аэронавтику, космонавтику, биологию, медицину, экологию, сельское хозяйство, математику, физику, химию, автоматику и радиоэлектронику, вычислительную технику, информатику, астрономию, геофизику, геологию, горное дело, металлургию, политику, законодательство и другие дисциплины. Словарь системы содержит около миллиона словарных статей и обеспечивает покрытие политематических текстов на 97-99 %. Это самый большой в мире русско-английский машинный словарь. Доля словосочетаний и фразеологических оборотов в словаре - около 80 %.

Система реализована на персональных компьютерах типа IBM РС/АТ. Скорость перевода текстов в автоматическом режиме - не менее 10-30 слов/сек. и зависит от быстродействия машины. Предусмотрена возможность работы в интерактивном режиме (с целью повышения качества перевода). Есть также возможность дополнительной настройки системы на конкретного пользователя. Для функционирования системы необходим объем оперативной памяти не менее 600 Кбайт и объем дисковой памяти не менее 20 Мбайт. Система работала под управлением операционной системы MS DOS 6.0 и выше. Теперь она работает под Windows 2000, встраивается в Word и доступна в Интернете на сайте ВИНИТИ. Система англо-русского перевода (ERTRANS) имеет характеристики, аналогичные системе RETRANS.

Одной из важнейших проблем, стоящих перед переводом, является частое и не всегда сразу заметное изменение значений слов. Словари не всегда успевают отразить эти изменения в научно-технической терминологии. В одном из докладов на международной конференции переводчиков приводились интересные примеры из вычислительной техники. Слово «компьютер» во времена Шекспира обозначало человека, выполняющего арифметические вычисления. В наше время подобное изменение претерпело слово «редактор», которым все больше обозначают программу обработки текста. Английские же слова word processor, первоначально употреблявшиеся в значении компьютера для обработки текста, а затем - и соответствующей программы, претерпело обратное изменение: теперь они часто применяются к людям и указывают на специалистов, поддерживающих работу этих программ.

С точки зрения пользователя системы машинного перевода могут подразделяться на три основных типа:

Информативные, предназначенные для помощи тем, кому нужен доступ к информации на иностранном языке и кто готов пользоваться «грубым», но достаточно понятным переводом. Такие системы, как правило, имеют словари большого объема, но не опираются на новейшие достижения в лингвистике и программировании.

Профессиональные, которые дают лишь черновые наброски перевода для профессиональных переводчиков и тем освобождают их от черновой работы. Такие системы теперь используются все реже, - как правило, при большом объеме текущей переводческой работы, выполняемой одновременно многими специалистами в одной предметной области. Чаще в этих ситуациях переводчиков снабжают автоматическими словарями, тезаурусами с интерактивным доступом или системами, получившими название «памяти переводчика».

Персональные - для авторов, желающих перевести свои статьи на иностранный язык, которым они не вполне владеют. Такие системы обычно работают в диалоге с пользователем и могут давать удовлетворительный перевод (качество которого все же зависит от того, насколько автор владеет выходным языком).

По применяемым лингвистическим методам системы машинного перевода можно разделить также на три типа:

Системы прямого перевода - наиболее многочисленные, поскольку начали создаваться еще в 50-60-е годы для фиксированных пар языков. В этих системах словарь и синтаксис входного языка анализируются лишь в той мере, в какой это необходимо для идентификации правильных выражений выходного языка и порядка слов. В начале своего развития эти системы выдавали пословные переводы и лишь позднее - переводы, основанные на анализе предложений входного языка.

Системы перевода с использованием языка-посредника, служащего для отображения «смысла» входного текста, который преобразуется в семантические и синтаксические представления, общие для нескольких выходных языков. Этот метод применяется обычно при необходимости перевода исходного текста на несколько языков (в переводческих центрах Европейского сообщества, например).

Системы перевода с трансфером более сложны, нежели предыдущие типы, поскольку языки-посредники применяются дважды - первый раз при переводе с входного языка, второй - при переводе на выходной язык. В этом случае становится необходимым дополнительный этап перевода - с языка-посредника входного языка на язык-посредник выходного языка. За этот счет достигается более глубокий лингвистический анализ и синтез.

В последние годы все большее применение в машинном переводе находят методы искусственного интеллекта, которые при переводе учитывают семантику текста. Это означает, что они опираются не столько на грамматические, сколько на семантико-синтаксические категории. Обычные для лингвистических методов многочисленные неоднозначности и неясности устраняются за счет внеязыковой базы данных. Это означает, что система пытается «понять» текст на входном языке до его перевода. Однако и методы искусственного интеллекта пока не дают всей информации, необходимой для полноценного машинного перевода. В частности, проблемы возникают при переводе с английского языка на японский. «Понимание» английского текста не дает достаточной информации о состоянии пишущего и читающего, необходимой для адекватного перевода на японский язык.

Несмотря на все оговорки, связанные с несовершенством систем машинного перевода, существуют уже сотни достаточно широко используемых систем такого рода.

Список литературы

1. Абросимова, М.А. Информационные технологии в государственном и муниципальном управлении: Учебное пособие / М.А. Абросимова. - М.: КноРус, 2013. - 248 c.

2. Акперов, И.Г. Информационные технологии в менеджменте: Учебник / И.Г. Акперов, А.В. Сметанин, И.А. Коноплева. - М.: НИЦ ИНФРА-М, 2013. - 400 c.

3. Атьков, О.Ю. Персональная телемедицина. Телемедицинские и информационные технологии реабилитации и управления здоровьем / О.Ю. Атьков, Ю.Ю. Кудряшов. - М.: Практика, 2015. - 248 c.

4. Афонин, П.Н. Информационные таможенные технологии: Учебник / П.Н. Афонин. - СПб.: Троицкий мост, 2012. - 352 c.

5. Балдин, К.В. Информационные технологии в менеджменте: Учеб. для студ. учреждений высш. проф. образования / К.В. Балдин. - М.: ИЦ Академия, 2012. - 288 c.

6. Барский, А.В. Параллельные информационные технологии: Учебное пособие / А.В. Барский. - М.: Бином, 2013. - 503 c.

7. Бартенев, В.А. Современные и перспективные информационные ГНСС-технологии в задачах высокоточной навигации / В.А. Бартенев, М.Н. Красильщиков. - М.: Физматлит, 2014. - 192 c.

8. Вдовин, В.М. Информационные технологии в налогообложении: Учебное пособие / В.М. Вдовин, Л.Е. Суркова, А.В. Смирнова. - М.: Дашков и К, 2012. - 208 c.

9. Вдовин, В.М. Информационные технологии в налогообложении: Практикум / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2012. - 248 c.

10. Вдовин, В.М. Информационные технологии в финансово-банковской сфере: Практикум / В.М. Вдовин. - М.: Дашков и К, 2012. - 248 c.

11. Вдовин, В.М. Информационные технологии в налогообложении: Практикум / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2014. - 248 c.

12. Вдовин, В.М. Информационные технологии в финансово-банковской сфере: Учебное пособие / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2016. - 304 c.

13. Вдовин, В.М. Информационные технологии в финансово-банковской сфере: Учебное пособие / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2013. - 304 c.

14. Вдовин, В.М. Информационные технологии в финансово-банковской сфере: Практикум / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2012. - 248 c.

15. Вдовин, В.М. Информационные технологии в финансово-банковской сфере.Учебное пособие / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2012. - 304 c.

Размещено на Allbest.ru

...

Подобные документы

  • Понятие базы знаний для управления метаданными. Особенности баз знаний интеллектуальной системы. Языки, используемые для разработки интеллектуальных информационных систем. Классические задачи, решаемые с помощью машинного обучения и сферы их применения.

    реферат [16,9 K], добавлен 07.03.2010

  • История автоматизированного перевода. Современные компьютерные программы перевода. Сфера использования машинного перевода. Формы организации взаимодействия человека и ЭВМ в машинном переводе. Интерредактирование и постредактирование машинного перевода.

    курсовая работа [30,0 K], добавлен 19.06.2015

  • Понятие глобальной компьютерной сети "Интернет". Основы классификации ее информационных ресурсов. Виды информации, хранимой в Интернете и профессиональных базах. Вопросы эффективности и технологии поиска информации в Интернете и профессиональных базах.

    реферат [26,1 K], добавлен 22.06.2011

  • Построение баз знаний для семантической сети. Цели создания и язык представления онтологий. Структура исследований в области многоагентных интеллектуальных информационных систем, архитектура агента. Экономическое обоснование разработки базы знаний.

    дипломная работа [1,6 M], добавлен 29.09.2013

  • Понятия в области метрологии. Представление знаний в интеллектуальных системах. Методы описания нечетких знаний в интеллектуальных системах. Классификация интеллектуальных систем, их структурная организация. Нечеткие системы автоматического управления.

    курсовая работа [768,2 K], добавлен 16.02.2015

  • Основные виды и технологии интеллектуальных информационных систем. Аспекты представления знаний. Функциональная структура использования ИИС. Интеллектуальная поддержка дистанционного образования и экстерната. Электронные учебники и тесты.

    контрольная работа [93,8 K], добавлен 29.11.2006

  • База знаний - структурированная информация из области знаний для использования кибернетическим устройством (человеком). Классификация, структура, формат представления знаний, интеллектуальные системы поиска информации. Базы знаний на примере языка Пролог.

    презентация [51,3 K], добавлен 17.10.2013

  • Понятие искусственного интеллекта и интеллектуальной системы. Этапы развития интеллектуальных систем. Модели представления знаний, процедурный (алгоритмический) и декларативный способы их формализации. Построение концептуальной модели предметной области.

    презентация [80,5 K], добавлен 29.10.2013

  • Инструментальные средства проектирования интеллектуальных систем. Анализ традиционных языков программирования и представления знаний. Использование интегрированной инструментальной среды G2 для создания интеллектуальных систем реального времени.

    контрольная работа [548,3 K], добавлен 18.05.2019

  • Экспертная система - компьютерная программа, способная частично заменить специалиста-эксперта в разрешении проблемной ситуации. Структура, режимы функционирования, классификация экспертных систем, этапы разработки. Базы знаний интеллектуальных систем.

    реферат [32,2 K], добавлен 04.10.2009

  • Понятие информационной системы как системы сбора, хранения, накопления, поиска и передачи информации, применяемая в процессе управления или принятия решений. Классификация и структура информационных систем. Разнообразие задач, решаемых с помощью ИС.

    контрольная работа [160,6 K], добавлен 18.01.2010

  • Анализ автоматизированных информационных технологий, применяемых в экономике. Особенности экономической информационной системы, предназначенной для поиска, хранения и выдачи информации по запросам пользователей. Поиск информации с помощью баз данных.

    курс лекций [1,4 M], добавлен 27.01.2010

  • Задача об оптимальном графе для децентрализованного поиска. Жадный алгоритм. Модель Клайнберга. Математическая модель. Алгоритмы решения. Алгоритм локального поиска. Табу алгоритм. Метод ветвей и границ. Выбор между одинаковыми соседями. Стартовый граф.

    дипломная работа [4,1 M], добавлен 23.10.2016

  • Классификация информационных систем и технологий в организационном управлении. Методы и организация создания ИС и ИТ. Состав, структура, внутримашинного информационного обеспечения. Информационные технологии и процедуры обработки экономической информации.

    контрольная работа [28,9 K], добавлен 25.07.2012

  • Организация, состав, структура внутримашинного информационного обеспечения. Сети хранилищ данных и базы знаний – перспектива развития ИО в управлении организации. Системы автоматизации коллективной работы над документами. Назначение экспертных систем.

    контрольная работа [28,8 K], добавлен 24.05.2012

  • Информация: свойства, измерение, передача; характеристики информационных каналов. Обработка и формы представления информации. Понятие "искусственного интеллекта". Назначение экспертных систем: оценки, фреймы, семантические сети и реляционные графы.

    контрольная работа [74,0 K], добавлен 03.12.2012

  • Применение информационных технологий в управлении проектами (инновациями), определение их эффективности. Методические принципы защиты информации. Виды и особенности интеллектуальных информационных систем. Организация электронного документооборота.

    курс лекций [1,1 M], добавлен 29.04.2012

  • Сбор и обработка информации при подготовке публикации. Признаки информационного общества, воздействие информации на развитие журналистской деятельности. Влияние Интернета на средства массовой информации. Использование компьютера в работе журналиста.

    презентация [235,4 K], добавлен 17.05.2016

  • Синтаксис логики предикатов. Преобразование унарных предикатов в бинарные. Функции, выполняемые экспертной системой. Правила "если-то" для представления знаний. Разработка оболочки в экспертных системах. Рассуждения, использующие логические формулы.

    курс лекций [538,1 K], добавлен 16.06.2012

  • Интеллектуальные информационные системы: понятие, классификация, этапы проектирования. Анализ предметной области и методы приобретения знаний. Моделирование деятельности нотариальной конторы в программной среде AllFusion Process Modeler в стандарте IDEF0.

    курсовая работа [5,5 M], добавлен 14.06.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.