Извлечение терминов автоматическими методами (на материале финских текстов)

Термин - основная номинативная специальная лексическая единица, которая принимается для точного наименования понятий. Характеристика важнейших направлений экономического дискурса в финском языке в зависимости от целевой аудитории текстовой информации.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 30.10.2017
Размер файла 2,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

Введение

Основными функциями языка являются коммуникативная (язык предназначен для взаимодействия людей), когнитивная (язык служит для передачи смысла) и аккумулятивная (язык обеспечивает сохранение и передачу знаний).

Терминология как часть специальной лексики языка обеспечивает осуществление аккумулятивной функции языка, позволяя передавать информацию как о конкретных объектах физического мира, имеющих особое назначение и определенные свойства и качества, так и об абстрактных идеях или понятиях. Изучением терминологии занимается терминоведение, в рамках которой специальные единицы языка анализируются «с точки зрения их типологии, происхождения, формы, содержания (значения) и функционирования, а также использования, упорядочения и создания».

В последнее время в терминоведении все большую актуальность приобретает задача автоматического извлечения терминов в связи с огромными и, более того, постоянно растущими объемами информации. Автоматическое выделение терминов может использоваться для создания терминологических словарей различных тематик, а также при переводе. Это определяет практическую значимость нашей работы.

Поскольку к терминам, в отличие от остальной лексики, предъявляются определенные требования (в частности, к форме и к значению термина, о которых мы будем говорить далее), автоматизация для их извлечения может быть применима с бомльшим успехом, чем к остальной лексике языка. Согласно А.С. Герду, особенности терминов позволяют «заранее задать определенную модель параметров описания семантики терминов данного типа».

Тема извлечения терминов из текстов разрабатывалась еще с 1990х годов. Начало изучения ознаменовалось появлением в 1990 году TERMINO -- первой широкой известной программы для извлечения терминов. В дальнейшем исследователями применялись различные подходы, на их основе создавались алгоритмы, но и по сей день проблема автоматического извлечения терминов не потеряла своей актуальности.

Объектом нашего исследования являются термины финского языка (конкретнее -- экономическая терминология, встречающаяся в газетных статьях), а предметом -- автоматическое извлечение данных терминов из текстов. Целью нашего исследования является исследование терминов и терминологических словосочетаний в финском языке.

Для достижения данной цели нами были поставлены следующие задачи:

1) теоретическое описание терминов в финском языке (на материале созданного нами корпуса и корпуса fiTenTen);

2) изучение программного обеспечения для выделения терминов;

3) описание моделей терминов в рамках грамматики SketchEngine;

4) выявление выделенных терминов на основе разработанной грамматики из корпуса экономических текстов и последующий анализ результатов.

Мы использовали такие методы как корпусный анализ данных, статистические методы и подход с использованием правил (rule-based approach).

В качестве материала для нашего исследования были отобраны газетные статьи по тематике «Экономика». Объем корпуса составляет 50 тысяч токенов.

Для извлечения терминов нами была написана и протестирована грамматика SketchEngine.

В первой главе мы рассматриваем термин как лексическую единицу, его характеристики и особенности (в частности, морфологические особенности финского термина).

Во второй главе мы приводим краткий обзор существующих способов автоматического извлечения терминов. При рассмотрении программных средств мы ограничились только теми инструментами для выделения ключевых слов и терминов, которые позволяют выявлять именно термины как единицы специального языка.

В третьей главе мы описываем грамматику SketchEngine, с помощью которой нами проводилось извлечение терминов, и материал исследования, анализируем результаты исследования и ошибки, возникшие при автоматическом извлечении терминов.

1. Понятие термина в лингвистике

1.1 Определение понятия «термин»

Довольно часто в науке можно столкнуться с тем, что общеупотребительное понятие определяется разными учеными по-разному: в частности, понятия концепта в различных областях гуманитарных наук отличаются друг от друга. Даже в рамках одного направления нередки случаи, когда существует несколько определений одного и того же понятия.

Так, в настоящее время нельзя говорить о едином определении понятия «термин» в лингвистике. Согласно С.Д. Шелову, «далеко не во всех работах, обсуждающих терминологические темы, предлагается дефиниция понятия “термин”…даже если они активно комментируют определения своих коллег», а некоторые авторы «предлагают свое собственное определение этого понятия без учета уже имеющихся дефиниций». В данной главе мы приведем несколько существующих определений термина.

Согласно А.С. Герду термин представляет собой единицу какого-либо конкретного естественного или искусственного языка (слово или словосочетание), которая либо уже существовала ранее, либо была специально создана и которая обладает специальным терминологическим значением, выраженным в словесной форме или в каком-либо формализованном виде, и при этом достаточно полно отражает основные признаки существующего научного понятия. Специфичность термина как лексической единицы обусловлена не планом выражения, а планом содержания. Связь термина с мышлением осуществляется через понятие.

С.В. Гринев-Гриневич определяет термин как «номинативную специальную лексическую единицу (слово или словосочетание), принимаемую для точного наименования понятий». Это определение, по его мнению, содержит основные свойства и признаки термина, отличающие его от нетерминов: «обозначение понятия, принадлежность к специальной области знания, дефинированность, точность значения, контекстуальная независимость, конвенциональность и целенаправленный характер появления, устойчивость и воспроизводимость в речи, номинативность, стилистическая нейтральность». С.Д. Гринев-Гриневич также отрицает возможность того, чтобы термином являлась часть речи, отличная от существительного.

С.Д. Шелов формулирует следующее определение термина: термин - это «языковой знак (слово, словосочетание, сочетание слова или словосочетания с особыми символами), выражающий понятие какой-либо области знания и в силу этого имеющий дефиницию (толкование, объяснение), на которую сознательно ориентируются использующие этот языковой знак».

В работе термин определяется как «слово или словосочетание, соотнесенное со специальным понятием, явлением или предметом в системе какой-либо области знания».

Во всех этих определениях подчеркивается то, что термин является либо словом, либо словосочетанием (распространенность того или другого типа термина в языке зависит от множества разных факторов, например, от типа стандартного языка или терминосистемы, в которую входит термин), его принадлежность к специальному языку и связь с каким-либо понятием. Таким образом, можно определить термин как единицу специального языка, обозначающую какое-либо понятие.

1.2 Особенности термина. Требования к термину

Лексика специальных языков преимущественно состоит из номинативных единиц -- названий объектов и действий, относящихся к специальным областям, то есть денотатами таких языковых единиц являются специальные понятия -- как абстрактные, так и конкретные. Таким образом, первой особенностью термина является его номинативность.

Второй особенностью термина является его принадлежность и к естественному языку, и к языку для специальных целей. Следовательно, термины могут служить связующим звеном между разными языками, обеспечивая переход от специального языка к естественному языку, поскольку их содержательная и формальная структура часто схожи в одинаковых терминосистемах разных языков, но значительно отличаются в различных терминосистемах одного и того же языка.

К термину как знаковой единице предъявляются определенные требования, которые можно разделить на три группы в соответствии с тремя аспектами: требования к форме (синтаксический аспект), к значению (семантический аспект) и специфические требования, связанные с особенностями употребления термина (прагматический аспект). Тем не менее, необходимость некоторых из приведенных ниже критериев все еще является предметом дискуссий.

К форме термина предъявляются следующие требования:

1) соответствие фонетическим, грамматическим и стилистическим нормам языка (данное требование скорее относится к терминам, заимствованным из другого языка);

2) краткость (избыточно длинный термин неудобен в использовании);

3) хорошая деривационная способность (чтобы образовывать новые термины от уже имеющихся, а не вводить другие слова для терминов, схожих по значению);

4) неизменность (инвариантность).

Значение термина должно соответствовать следующим требованиям:

1) соответствие термина отражаемому им понятию или непротиворечивость семантики термина;

2) однозначность термина в данной терминологии (невозможно требовать однозначности термина в языке, поскольку многие термины многозначны);

Данное требование представляет для нас особый интерес, поскольку в нашем исследовании при автоматическом выделении терминов мы не принимаем во внимание семантический аспект, возможны ошибки, связанные с неправильным выделением термина: алгоритм может выделить как термин слово, не являющееся термином в данном контексте, или наоборот.

3) полнозначность (значение термина должно отражать минимальное количество признаков, достаточных для идентификации обозначаемого им понятия);

4) отсутствие синонимов (тем не менее, синонимия -- довольно частое явление в терминологиях, особенно между заимствованными и автохтонными терминами, неологизмами и устаревающими терминами).

Среди прагматических требований выделяют следующие:

1) внедренность термина в язык, характеризующаяся общепринятостью или употребительностью термина специалистами;

2) интернациональность (в нескольких национальных языках термины совпадают или достаточно близки по форме и содержанию);

3) современность (терминосистема должна меняться вместе с языком и отвечать запросам тех, кто ей пользуется);

4) орфоэпическая и ассоциативная благозвучность термина (данное требование перекликается с требованием соответствия различным языковым нормам).

Структуру термина можно разделить на содержательную и формальную. К содержательной структуре относятся:

1) собственно семантика;

2) языковая и терминологическая мотивированность;

3) сигнификативное значение (обозначение специального понятия или концепта, а также их признаков).

Формальная структура термина вызывает много вопросов, один из которых -- проблема оптимальной длины термина -- имеет особое значение для нашего исследования, проводимого на материале финских текстов. Как было указано выше, одним из требований к форме термина является краткость. Согласно В.М. Лейчику, целесообразнее говорить не о краткости термина, а о его оптимальной длине или оптимальном наборе терминоэлементов, из которых состоит термин. Таким образом, формальная структура термина будет связана с содержательной структурой, поскольку каждый терминоэлемент соотносится с понятием или же признаком понятия.

Понятие терминоэлемента впервые было введено Д.С. Лотте в работе: «Под “терминоэлементами” понимаются слова, имеющие самостоятельное значение и входящие в состав простого или сложного термина». В дальнейшем под терминоэлементом Д.С. Лотте понимал «любой термин -- словосочетание, или термин-слово, или, наконец, часть (частичку) термина-слова, не делимые в терминологически-смысловом отношении».

По В.М. Лейчику, термин обладает идеальной длиной, если каждый его терминоэлемент обозначает одно понятие из системы понятий данной области знания. Длину можно обозначить как I + n (или n + I). Если термин является основным для данной терминосистемы, то n -- количество этапов деления понятия -- равняется нулю. Оптимальная длина термина, при которой возможно обозначить основное понятие терминоэлементами в количестве m, равняется m + n, причем в случае мотивированного термина m не может равняться нулю. В термине выделяется количество терминоэлементов, соответствующее количеству морфем (или слов), которые являются означающими понятий, относящихся к определенной системе понятий.

Следует различать идеальную и оптимальную структуру термина. Термин обладает идеальной структурой, если связи между его терминоэлементами соответствуют логическим связям между соответствующими понятиями.

Оптимальной структурой В.М. Лейчик считает такую идеальную структуру термина, при которой количество его терминоэлементов является минимальным для данной терминосистемы.

1.3 Происхождение терминов

Как мы писали выше, ключевой характеристикой термина является его принадлежность к специальному языку. Тем не менее, термин может употребляться и в повседневной речи. Согласно С. А. Гриневу-Гриневичу, в любой терминологии есть консубстанциональные термины -- такие лексические единицы, которые встречаются как в обыденной, так и в профессиональной речи и которые могут затруднить автоматическое выделение терминологической лексики из корпуса, например:

vero -- `налог'

lasku -- `счет'

osake -- `акция'.

Тем не менее, термин в первую очередь является единицей языка, а его принадлежность к специальной лексике вторична. То есть термины, как и другие лексические единицы, могут использоваться на различных уровнях языка, при этом их значение будет изменяться.

Кроме терминов говорят также о квазитерминах, под которыми понимают такие номинативные единицы, которые обозначают понятия с расплывчатым содержанием и объемом, а, следовательно, не могут относиться к терминосистеме. Например, rahahana -- `денежный кран' (буквально `деньги-кран').

С ними тесно связаны опорные, или «пустые» слова, входящие в состав терминов, но не являются терминоэлементами, поскольку не обозначают понятий и их признаков.

Внутренние границы между различными группами терминов могут быть размыты: зачастую слово может относиться сразу к нескольким областям человеческого знания. Согласно В.М. Лейчику, «граница между терминологической и общеупотребительной лексикой нестабильна…постоянно происходит как процесс превращения терминов в общеупотребительные слова, так и использование бытовой лексики для формирования терминологий, когда на основе представлений формируются понятия».

Существует гипотеза, что в момент своего возникновения любое слово было термином, но не всякое слово сохранило свое положение в терминологии к настоящему моменту. Соответственно, в ходе развития языка термины становятся бытовыми словами по мере того, как новые изобретения, новые понятия входят в обыденную жизнь, в массовое употребление, то есть с течением времени терминология динамично развивается. В языке постоянно происходит процесс превращения терминов в общеупотребительные слова и наоборот.

Любая лексическая единица естественного языка может стать лексической единицей специального языка; при этом она становится термином, если начинает выполнять определенные функции.

Одним из основных средств пополнения терминологии считается заимствование из общеупотребительной лексики в специальную лексику.

В.М. Лейчик предлагает следующую классификацию источников терминов, согласно которой они делятся на две группы: лексические единицы определенного специального языка и лексические единицы, не относящиеся к какому-либо специальному языку.

Из не относящейся к специальным языкам лексики в термины переходят:

1) лексические единицы литературного языка;

2) лексические единицы диалектов.

Из лексики одних специальных языков в состав других переходят:

1) квазитермины (общенаучные или общетехнические термины);

2) элементы профессиональной лексики;

3) элементы профессионального просторечия;

4) элементы профессиональных жаргонов;

5) заимствования из других терминосистем (этот процесс также называется межсистемным заимствованием терминов);

6) номенклатурные единицы;

7) имена собственные, а также имена собственные, перешедшие сначала в разряд номенклатурных единиц, а затем -- в термины;

8) заимствования из другого языка, проходящие терминологизацию в принимающем языке;

9) интернационализмы (уже существуют в качестве терминов в нескольких языках);

10) гибридотермины (термины, в состав которых входит заимствованный или интернациональный элементы и элементы принимающего языка, которые затем в процессе терминологизации объединяются);

11) псевдозаимствования (термины, образованные уже в принимающем языке, но на основе заимствованных или интернациональных элементов).

Изучение терминов, заимствованных из другого языка, имеет большую важность для исторического языкознания, поскольку в рамках такого изучения можно рассматривать исследовать также взаимодействие языков и народов, говорящих на этих языках. Более того, исходя из характера заимствованной лексики, можно говорить о характере взаимоотношений между народами и их культурном уровне относительно друг друга (зачастую термины заимствуются из других языков вместе с понятиями, основные характеристики которых они выражают). Тем не менее, Лаури Хакулинен утверждал, что «при отсутствии в языке собственного термина для какого-либо понятия нельзя еще делать вывода о том, что это понятие было неизвестно носителям данного языка».

Таким образом, существует три пути становления термина как лексической единицы специального языка:

1. Изменение уже имеющихся лексических единиц естественного языка (обычно не являющихся терминами) путем применения к ним различных способов словообразования (например, через словосложение).

2. Терминологизация нетерминов.

3. Заимствование терминов из других языков, либо заимствование с одновременной терминологизацией.

1.4 Классификации терминов

Существует несколько классификаций (или типологий) терминов, но, в отличие от типологий, в которых термины делятся по одному существенному признаку, в классификациях термины группируются по нескольким различным признакам, независимым друг от друга: по содержанию, по языковой форме, по функции, по внутриязыковым и внеязыковым признакам. Тем не менее, классификации терминов могут быть взаимосвязаны.

В качестве оснований классификаций используются различные характеристики терминов, связанные с содержанием терминов, их формальной структурой и функциями. Основание классификации может зависеть от области знаний, к которой относится терминология.

В зависимости от области знания или деятельности термины могут быть научными (которые, в свою очередь, делятся согласно терминологиям, соответствующим имеющимся наукам), техническими (которые могут также использоваться и в научной сфере), терминами языка описания и языка обслуживания экономики, терминами языка управления (например, дипломатические термины, термины делопроизводства или военных языков) и общественно-политическими.

По логической категории означаемого выделяют термины, обозначающие предметы, процессы, признаки, свойства, величины и их единицы. В зависимости от содержательной структуры термины могут быть однозначными или многозначными.

Существуют также лингвистические классификации терминов, основанные на лексических признаках терминов. Подобную классификацию можно найти в работе Б.Н. Головина.

Б.Н. Головин предлагает следующую классификацию терминов на основе их морфолого-синтаксической структуры. В этом случае термины делятся на два типа: термины-слова и термины-словосочетания. Лейчик и Шелов выделяют также термины, выраженные словами с символами.

Дальнейшая классификация терминов-слов имеет своим основанием морфемную структуру слова. Таким образом, термины-слова могут быть:

1) непроизводными (или корневыми), например, lasku -- `счет';

2) производными (laskutus -- `выставление счета');

3) сложными (sдhkцlasku -- `счет за электроэнергию');

4) аббревиатурами (ALV -- сокращение от arvonlisдvero: налог на добавочную стоимость, сокращенно НДС).

Также среди терминов-слов можно выделить телескопические слова, `цепочечные образования' или символо-слова.

С точки зрения морфологической структуры термины могут быть существительными (lasku -- `счет'), глаголами (laskuttaa -- `выставлять счет'), прилагательными (kvalitatiivinen -- `качественный') и наречиями. Согласно Б.Н. Головину и Р.Ю Кобрину, часть речи термина зависит от той области знания, в которой используется термин: так, для математических текстов характерны терминологические предикаты, выраженные глаголом, кратким прилагательным или кратким причастием; прилагательные преимущественно выступают в качестве элементов сложных терминов, но субстантивированные прилагательные являются терминами сами по себе; в определенных терминологиях (например, в музыкальной) терминами являются в том числе наречия или деепричастия, выражающие признак действия.

Тем не менее, в качестве словарных единиц используются преимущественно термины, выраженные существительными или именными словосочетаниями, поскольку они являются означающими понятий и часто встречаются в текстах научно-технического содержания. В данной работе мы будем рассматривать исключительно термины-слова, выраженные существительными, и далее рассмотрим более подробно сложные термины.

В зависимости от типа структуры термины-словосочетания могут быть простыми словосочетаниями, в состав которых входит два знаменательных слова, при этом одно из них будет главным, а другое -- зависимым, и сложными словосочетаниями, в которых несколько зависимых слов, отражающих различные аспекты значения главного слова. С точки зрения семантики термины-словосочетания могут быть свободными или устойчивыми.

По морфологическому типу главного слова Б. Н. Головин выделяет:

1) субстантивные словосочетания; в роли главного слова в таких словосочетаниях выступает существительное, в роли зависимых слов могут выступать имена существительные (с предлогом и без), имена прилагательные, порядковые числительные и причастия;

2) адъективные словосочетания; главным словом является прилагательное или причастие, зависимым -- имя существительное или наречие;

3) глагольные словосочетания; главное слово -- глагол, зависимое -- имя существительное.

В данной работе мы рассматриваем исключительно субстантивные словосочетания, в роли зависимых слов в которых выступают прилагательные.

В зависимости от языка-источника термины бывают исконными (уже имевшимися в составе литературного языка, но не специального), заимствованными (из другого языка) и гибридными или гибридотерминами, как мы писали выше.

По сфере использования выделяются универсальные (используемые в нескольких областях знания), уникальные (для одной области) и авторские термины.

С историко-лексикологической точки зрения термины делятся на термины-архаизмы, входящие в устаревшие терминосистемы или относящиеся к устаревшим областям знаний, и термины-неологизмы, появляющиеся в связи с новыми явлениями и предметами.

Поскольку специальные языки выполняют более конкретные функции, чем литературный язык, а их лексический состав постоянно пополняется новыми терминами, они периодически нуждаются в стандартизации. По степени нормативности термины могут быть стандартизованными (прошедшими стандартизацию), стандартизированными (проходящими стандартизацию), недопустимыми (не прошедшими стандартизацию), рекомендуемыми, рекомендованными, параллельно допустимыми (в качестве дополнительного варианта) и отклоненными. Также в зависимости от частоты встречаемости в тексте можно выделить высокочастотные и низкочастотные термины. Частота термина имеет ключевое значение для статистического подхода к автоматическому извлечению терминов.

Существует три основных этапа стандартизации:

1) полная систематизация всех названий;

2) оценка и унификация реально существующей терминологии;

3) подлинная стандартизация.

По мотивированности термины могут быть полностью мотивированными, полностью немотивированными, частично мотивированными или же ложномотивированными

1.5 Термин в финноязычной лингвистике

Финский язык относится к финно-угорской семье языков и, как и остальные финно-угорские языки (в частности, венгерский, эстонский), относится к агглютинативным языкам. Это означает, что наиболее эффективным способом словоизменения и словообразования в финском языке является агглютинация, или приклеивание к основе различных аффиксов, причем основа слова сама по себе зачастую является полноценной лексемой.

В финноязычной лингвистике с понятием «termi» -- `термин' тесно связаны такие понятия как «erikoiskieli» -- `специальный язык' или «erikoisalasanasto» -- `лексика специальной области'. Специальный язык -- это форма языка, которая используется в какой-либо конкретной специальной области и имеет такие характеристики как особая терминология и определенные стилистические и синтаксические черты. Специальная область, согласно Словарю терминологии (Terminologian sanasto) -- область, для которой требуются специальные познания.

По своей структуре термин может быть простым словом, производным словом (образованным из слова-основы путем прибавления суффикса), сложным словом (состоящим из двух или нескольких основ), или словосочетанием (состоящим из двух и более слов). Последнее не стоит путать с терминологическим выражением -- устойчивым сочетанием слов, в которое входит один или несколько терминов. Мы рассмотрим подробнее сложные слова.

Сложное слово -- слово, состоящее из двух или более слов, но являющееся одной лексической единицей. Тем не менее, при извлечении фактов из текста с практической точки зрения представляется возможным выделять отдельные значимые части сложного слова, что мы и сделали при написании грамматики для автоматического выделения терминов.

Существует два типа сложных слов (композитов):

1) композиты подчинительного типа или mддritysyhdyssanat, которые состоят из атрибута и основной части, при этом атрибут обычно стоит перед основной частью.

Например, taloustilanne -- `экономическая ситуация'; tilanne -- `ситуация', talous (как лексема) -- `экономика', talous- (как часть сложного слова) -- `экономический, имеющий отношение к экономике'.

В качестве частей композита подчинительного типа могут выступать слова различных частей речи (например, takaisinmaksu -- `погашение', maksu -- `платеж' (существительное), takaisin -- `обратно' (наречие)) или стоящие в различных формах (например, lainanhakija -- `проситель ссуды/займа', hakija -- `соискатель', lainan -- генитивная форма от laina -- `ссуда/займ').

2) композиты сочинительного типа или summayhdyssanat, в состав которых входит два или более слов, находящихся в семантически равнозначных отношениях. В нашей работе мы рассматриваем преимущественно композиты подчинительного типа, поскольку композиты сочинительного типа встречаются реже и их семантика ограничена конкретными кластерами лексики (например, названиями профессий или цветов). термин лексический дискурс

Согласно исследованию Лауры Тююстери, направленному на изучение составных терминов, можно говорить о следующих свойствах сложных слов в финском языке:

1) сложные слова встречаются чаще в терминологиях, чем в стандартном языке;

Хотя сложные слова являются наиболее распространенным типом слова как в стандартном финском языке в силу его агглютинативности, так и в специальных языках, в лексике специального языка встречается гораздо больше сложных слов по сравнению со стандартной лексикой, поскольку они в большей степени удовлетворяют требованиям, предъявляемым к специальной лексике. Кроме того, в последнее время в официальных документах проявляется тенденция к слитному написанию терминов и терминологических выражений, даже если они и писались раздельно, что приводит к образованию новых сложных слов.

2) сложные слова-термины чаще, чем в стандартном языке, являются существительными;

Это напрямую связано с самой природой терминов, большая часть которых является существительными в силу определения: термин обозначает понятие, а не его свойство или действие, которое с ним можно совершить.

3) сложные слова-термины в среднем длиннее, чем сложные слова, употребляющиеся в стандартном языке;

4) сложные слова-термины чаще, чем в стандартном языке, содержат в себе другие слова и аббревиатуры;

5) сложные слова-термины реже содержат в себе префиксы, чем сложные слова, употребляющиеся в стандартном языке.

По своей употребительности термины делятся на предпочтительные (термины, которые признаны наиболее подходящими для обозначения данного понятия), общепризнанные (термины, которые оцениваются как подходящие для обозначения данного понятия и могут употребляться помимо предпочтительного термина) и непригодные (термины, признанные неподходящими для обозначения данного понятия). С точки зрения актуальности термин может быть устаревшим, а по происхождению -- заимствованным.

Следует отметить разницу в основаниях, используемых для классификации терминов между русским и финским терминоведением. В частности, в не приводится отдельного названия для терминов-архаизмов и терминов-неологизмов. Также предпочтительность термина не выделяется как основание для классификации в русском терминоведении: вместо этого термины классифицируются в зависимости от степени их стандартизованности.

1.6 Экономические термины

Под экономическими терминами мы понимаем термины, употребляющиеся в экономической среде, т.е. в экономической сфере и в областях, каким-либо образом связанных с экономической наукой. Язык экономической сферы, в зависимости от отрасли, делится на несколько специальных подъязыков: язык гостиничного дела, язык торговли, язык горного дела, язык финансов, язык банковского дела, язык экономики сельского хозяйства, язык экономики строительства, язык экономики транспорта, язык менеджмента и язык экономики производства. Корпус, собранный нами, преимущественно состоит из текстов, относящихся к банковскому делу и торговле.

Поскольку экономика является социальной наукой, она подвержена изменениям, соответствующим изменениям в обществе, что также влияет и на экономическую терминологию. Кроме того, по сравнению с другими специальными языками в экономическом дискурсе значительно больше метафор, находящих свое воплощение в различных идиомах и образных выражениях, которые, тем не менее, тоже могут считаться терминами, как, например, pддomavirrat -- `потоки капитала'.

Можно выделить два направления экономического дискурса в зависимости от целевой аудитории текста: собственно научный и ориентированный на непрофессионалов. Поскольку данное исследование базируется не на специальных экономических текстах, а на газетных статьях, посвященных различным экономическим темам, предметом нашего исследования будут термины, относящиеся к повседневному языку экономики.

От собственно научного языка язык экономики отличает близость к стандартному языку, что объясняется общедоступностью данной терминосистемы для неспециалистов (в частности, через газетные статьи). Таким образом, большинство терминов из корпуса понятны неспециалисту, то есть являются консубстанциональными (например, vero -- `налог', lasku -- `счет', osake -- `акция').

1.7. Выводы

В данной главе мы рассмотрели несколько определений терминов, их свойства, характеристики и особенности.

Выделяя общее у всех рассмотренных определений, мы понимаем термин как единицу какого-либо специального языка, выражающую основные характеристики научного понятия.

Что касается образования термина, то переход лексической единицы из стандартного языка в специальный язык может осуществиться несколькими способами, например, через словообразование, терминологизацию или заимствование из других языков, а также через сочетание этих способов.

Мы рассмотрели несколько классификаций терминов, созданных в рамках русского языкознания и финноязычной лингвистики. Так, с точки зрения морфемной структуры термины-слова могут быть непроизводными, производными, сложными и аббревиатурами, а с точки зрения части речи -- существительными, глаголами, прилагательными и наречиями. Стоит также отметить, что, по мнению некоторых исследователей, термином может быть исключительно существительное.

На основании того, что наше исследование проводится на корпусе финских экономических текстов, мы можем сделать вывод, что большая часть терминов, существующая в нашем корпусе и подлежащая выделению, является:

1) существительными;

2) сложными словами;

3) консубстанциональными терминами.

2. Способы автоматического извлечения терминов

2.1 Общая характеристика систем для автоматического извлечения терминов

Существует несколько различных подходов к автоматическому извлечению терминов, но к настоящему моменту ни один метод не зарекомендовал себя как однозначно эффективный. Тем не менее, можно выделить некоторые общие характеристики для систем автоматического извлечения терминов. Так, на вход системе подается электронный корпус специальных текстов (либо, в случае систем, функционирующих онлайн, просто тексты), на выходе система формирует списки терминов-кандидатов в различных форматах (поддерживаемые форматы зависят от системы), которые подлежат дальнейшей ручной проверке. В некоторых случаях также для каждого термина предоставляется контекст либо другая дополнительная информация, необходимая для исследователя, например, частота термина.

Иногда в литературе, посвященной обработке естественного языка, под терминами понимают не единицу специального языка, а семантически значимые токены (ключевые слова). В данной главе мы приводим информацию о системах, которые извлекают не ключевые слова, а именно термины как лексические единицы, связанные с каким-либо понятием.

Основными проблемами при автоматическом извлечении терминов являются:

1) определение границ составных терминов и терминов-словосочетаний, состоящих из двух и более слов;

2) распознавание составных терминов и терминов-словосочетаний, состоящих из двух и более слов; в частности, распознавание лексической единицы как части составного термина или как свободной лексической единицы;

3) определение лексической единицы как термина в зависимости от контекста и тематики текста, в котором данная лексическая единица употребляется;

4) слишком длинные списки терминов-кандидатов, которые необходимо проверять вручную, поскольку частота не является достаточным критерием для оценки того, является ли выделенное слово термином или нет.

Также существует проблема уместности термина в данном словаре, но попытки решить эту проблему почти не предпринимались, поэтому мы не будем ее рассматривать как релевантную для нашего исследования.

Определение границ термина является одной из основных задач при выделении терминов. Существуют различные стратегии для определения начала и конца терминов: списки терминов, шаблоны структур, синтаксическая разметка, типографские знаки (а также пробелы) и другие.

После извлечения терминов некоторые из систем производят классификацию полученных результатов для того, чтобы связанные между собой термины находились рядом. Для этих целей может быть построена семантическая сеть из извлеченных терминов, граф, частичная онтология, а также терминологическая сеть, разбивающая термины на основную часть и дополнительные расширения.

Большая часть систем автоматического извлечения терминов предназначена только для одного языка (английского или французского) и содержит лингвистическую информацию, относящуюся только к конкретному языку, что усложняет использование системы по отношению к другому языку. Тем не менее, нередки случаи, когда алгоритм, написанный для одного языка, применялся в отношении других языков, в том числе и родственных ему. Так, гибридный метод, использованный в отношении английского, японского, словенского и сербского языков (два последних относятся к группе славянских языков), и полученные при его использовании результаты были сопоставимы с соответствующими результатами, полученными в ходе экспериментов с польским языком, также относящимся к славянским языкам, что доказывает переносимость данного алгоритма в частности.

Поскольку термин, как мы писали в первой главе, в большинстве случаев является существительным или словосочетанием, главным словом которого выступает существительное, большая часть систем автоматического извлечения терминов работает исключительно с именными группами, а не с глагольными. Мы, в свою очередь, тоже рассматривали только термины, представленные именными группами, а именно -- сложными словами и словосочетаниями.

2.2 Классификация систем для автоматического извлечения терминов

Как и системы для машинного перевода, системы для автоматического выделения терминов делятся на три группы в зависимости от используемой технологии:

1) лингвистические системы;

Под лингвистическими системами понимают системы, в которых применяются только лингвистические данные. Они в свою очередь делятся на два вида: системы, которые используют информацию, касающуюся конкретно термина (в этом случае с помощью регулярных выражений и конечных автоматов задается выделение повторяющихся структур терминологических сочетаний), и системы, использующие общеязыковую информацию (выделяются базовые языковые структуры, например, именные группы). Как правило, в обоих типах систем используется морфологически размеченный корпус.

2) статистические системы;

Системы, использующие статистический подход, считаются традиционными для извлечения терминов в силу того, что они независимы от языка. Такие системы работают за счет выделения двух или более лексических единиц, частота совместной встречаемости которых больше некоторого заданного уровня. Основным недостатком статистических систем является неспособность извлекать низкочастотные термины.

При оценке результатов в подобных системах используются такие меры как точность и полнота. Полнота описывает способность системы извлекать все термины из корпуса и задается через отношение количества извлеченных кандидатов в термины к общему количества терминов в корпусе. Точность характеризует способность системы отличать термины от нетерминов и рассчитывается через отношение количества извлеченных терминов к количеству извлеченных кандидатов в термины:

точность = ;

полнота =

Большинство систем для автоматического извлечения терминов не использует чисто статистический подход, а добавляет к нему дополнительную лингвистическую информацию, например морфологическую (разметка) или семантическую. Также может быть использован список стоп-слов.

3) гибридные системы.

Гибридные системы сочетают в себе статистический метод с использованием некоторой лингвистической информации. Чаще всего используются специальные правила (в нашем случае они учитывают морфологическую разметку).

Алгоритм, которым мы будем пользоваться для автоматического извлечения терминов, является гибридным и не зависит от контекста, но учитывает частоту термина, что позволяет нам выделять и низкочастотные термины. Мы опишем его подробней в следующей главе.

2.3. Существующие системы автоматического выделения и извлечения терминов

Онлайн-системы

Существуют системы для извлечения терминов, с которыми можно работать онлайн. К таким инструментам относятся:

1) Term Extraction компании FiveFilters.org -- программное обеспечение, позволяющее извлекать термины с помощью веб-сервиса.

На вход подается текст или ссылка на сайт, из которого извлекаются термины. На выходе пользователь получает списки терминов, отсортированные по релевантности. Выходной формат списков может быть различным (.html, .xml, .json или .txt). В данный момент поддерживается исключительно английский язык [Term Extraction | fivefilters.org].

Рис. 1 -- Входной интерфейс Term Extraction

Рис. 2 -- Выходной интерфейс Term Extraction: список терминов

В первом столбце (Term) приводится список наиболее употребительных терминов, во втором столбце (Occurence) -- количество употреблений данного термина в тексте, в третьем столбце (Word Count) -- количество слов в терминологическом словосочетании.

2) TerMine компании NaCTem -- онлайн-сервис, позволяющий извлекать термины из текста, файла (.txt или .pdf) или с интернет-страницы.

Поддерживается только кодировка ASCII. Подход является гибридным: используется морфологическая разметка и метод C-value [TerMine].

Рис. 3 -- Входной интерфейс TerMine

Рис. 4 -- Выходной интерфейс TerMine

Красным цветом выделены найденные термины. В левом верхнем углу окна указывается их количество.

3) Terminology Extraction компании Translated Labs.

Основная идея использованного метода -- сравнение частоты слов, встречающихся в тексте, с частотой слов в языке, то есть слово, которое чаще встречается в тексте, но редко -- в языке, предположительно является термином. Поддерживаются английский, французский и итальянский языки.

Рис. 5 -- Входной интерфейс Terminology Extraction

Рис. 6 -- Выходной интерфейс Terminology Extraction

Приводится список из 20 наиболее встречаемых терминов. Кроме этого, термины выделяются разным цветом в тексте.

Программы, находящиеся в свободном доступе.

Некоторые программы или библиотеки для извлечения терминов находятся в свободном доступе, но их необходимо загружать. К подобным программам относятся следующие:

1) topia.termextract 1.1.0 -- достаточно простой алгоритм, написанный на языке Python и сочетающий морфологическую разметку и статистический метод. Для того чтобы слово было выделено алгоритмом как термин, оно должно встретиться в тексте не менее трех раз [topia.termextract 1.1.0: Python Package Index].

Рис. 7 -- Пример работы topia.termextract 1.1.0: извлечение Term Extractor

Рис. 8 -- Пример работы topia.termextract 1.1.0: результат работы теггера

Рис. 9 -- Примеры работы topia.termextract 1.1.0: применение Term Extractor

2) Araya Bilingual Term Extraction Tool -- программа, извлекающая из файлов формата .tmx кандидаты в термины на двух языках с дополнительными характеристиками (например, частота). Пользователь может отмечать правильность/неправильность извлеченного термина. В тестовой версии доступно извлечение только 20 пар терминов [Terminology Extraction < Heartsome Europe GmbH].

Рис. 10 -- Интерфейс Araya Bilingual Term Extraction Tool

Программы с закрытым кодом.

Также существуют системы извлечения терминов, которые созданы для коммерческих целей и не находятся в свободном доступе. К таким системам относятся:

1) Sandstone's term extraсtion solution -- сервис, предоставляемый компанией Sandstone. Система ориентирована на интернациональные компании и извлекает из различных документов термины, характерные для данной организации. Также возможно параллельное извлечение терминов (то есть терминов и их переводов на другой язык). Термины на одном языке извлекаются из файлов формата .doc, .docx, .rtf и .txt, на двух -- из файлов формата .tmx, .csv и .txt. Поддерживаются английский, финский и шведский языки. Качество работы сервиса улучшается по мере наращивания объемов текстов, предоставляемых на вход [Terms Extraction].

2) Системы, созданные компанией TermCoord.

а) SynchroTerm. Термины извлекаются как на одном, так и на двух языках из файлов формата .doc, .xls, .rtf, .txt, .html, .pdf, .tmx (точнее всего извлечение для двух языков происходит на файлах формата .tmx, в остальных случаях возникает проблема с выравниванием). Для выделенных терминов доступен просмотр контекста. Поддерживается множество языков, в том числе английский, русский, финский, шведский, норвежский и греческий [Term extraction analysis done by TermCoord - Terminology Coordination Unit [DGTRAD] - European Parliament].

б) SDL MultiTerm Extract. Поддерживаются все языки, совместимые с кодировкой Unicode. Совместимыми форматами файлов являются .txt, .doc, .html, .htm, .tmx, .rtf, .xml, .sgm, sgml, .ppt, .xls, .tmx, .tmw, .ttx. Списки терминов выдаются в форматах .txt, .xml и в существующих терминологических базах. Алгоритм нечувствителен к регистру [Term extraction analysis done by TermCoord - Terminology Coordination Unit [DGTRAD] - European Parliament].

в) TaaS (Terminology as a Service). Алгоритм работает для 24 языков Европейского Союза, а также русского языка. Есть несколько вариантов извлечения терминов (сохранение словоформы, нормализация, визуализация, система Kilgray, TWSC (лингвистический алгоритм, дополненный статистическими чертами)). Поддерживаются форматы .pdf, .doc, .docx, .xls, .xlsx, .pptx, .rtf, .txt, .xliff, .xlf, .xml, .html, .htm, .mif. В системе имеется список стоп-слов. Есть возможность изменять термины, добавлять к ним определения и многое другое [Term extraction analysis done by TermCoord - Terminology Coordination Unit [DGTRAD] - European Parliament].

г) TermoStat Web 3.0. Поддерживаются только файлы форматов .txt и .rtf и только французский, английский, испанский, итальянский и португальский языки. Списки терминов (включая частоту употребления термина, варианты написания, формы множественного числа) выдаются только в формате .txt [Term extraction analysis done by TermCoord - Terminology Coordination Unit [DGTRAD] - European Parliament].

д) Promt Terminology Manager (Promt TerM). Используется статистический метод. Можно задавать дополнительные параметры для извлечения терминов. Программа встроена в профессиональную версию системы перевода @promt Expert [ПРОМТ объявляет о выпуске нового продукта ПРОМТ Terminology Manager]. По нашим сведениям, проект до сих пор развивается.

2.4 Выводы

В данной главе мы рассмотрели общие черты систем и алгоритмов для автоматического извлечения терминов.

Большинство систем использует статистический подход, хотя в некоторых случаях привлекается дополнительная лингвистическая информация.

Несмотря на то, что вышеуказанные системы показывают неплохие результаты, для нашего исследования мы выбрали инструмент SketchEngine, поскольку:

-- система SketchEngine позволяет написать свою грамматику, загрузить ее и применить к любому корпусу;

-- в систему SketchEngine можно загрузить свой корпус любого объема;

-- системой SketchEngine поддерживается множество языков, в том числе и финский язык.

Подробнее об инструменте SketchEngine и его применении пойдет речь в следующей главе.

3. Правила извлечения терминов

3.1 Материал исследования

Для нашего исследования мы собрали корпус (50 тыс. токенов), состоящий из газетных статей на экономическую тему. Размер корпуса был обусловлен желанием провести как можно более тщательное исследование для отдельных лексем и предоставить подробный анализ результатов. В качестве источников экономических текстов мы использовали ряд финноязычных новостных сайтов.

Табл. 1 -- Список источников экономических текстов

Название сайта

Ссылка

Количество статей

Yle Uutiset (`Новости Yle')

yle.fi

13

Taloussanomat | Talousuutiset (`Экономическая газета: Экономические новости')

taloussanomat.fi

63

Talouselдmд (`Экономическая жизнь')

talouselama.fi

12

Savon Sanomat (`Газета Саво')

savonsanomat.fi

2

Yrittдjдt.fi (`Предприниматели')

yrittajat.fi

16

Arvopaperi (`Ценная бумага')

arvopaperi.fi

3

Kauppalehti: Tдrkeimmдt talousuutiset

(`Торговая газета: Самые важные новости экономики')

kauppalehti.fi

1

Мы дополнительно проверяли работоспособность запросов для выделения словосочетаний, содержащих заданный термин, и некоторых запросов для извлечения терминов на основе финского корпуса fiTenTen.

Корпус fiTenTen, как и другие корпуса группы TenTen, был создан с помощью программы-краулера SpiderLing, который извлекает с различных интернет-страниц тексты для создания корпуса. Данные тексты были очищены на следующем этапе от гиперссылок, заголовков и сносок с помощью инструмента jusText, разбиты на токены с помощью программы unitok, с помощью инструмента onion были удалены повторы. В конце корпус был размечен размечен с помощью теггера TreeTagger версии TreeTagger for Finnish v2 [Language resources and tools | Sketch Engine]. Объем корпуса fiTenTen составляет 1,7 млн токенов.

Для последующей проверки выделенных терминов использовался словарь экономических терминов Taloussanakirja [Taloussanakirja | Talousuutiset], доступный онлайн на сайте taloussanomat.fi, а также другие словари, в том числе финско-русские (Большой финско-русский словарь [Вахрос, Щербаков, 2007]) и финско-английские (Wiktionary [Wiktionary, the free dictionary], Sivistysanakirja [Sivistysanakirja], Sanakirja.org [Sanakirja.org - Ilmainen Sanakirja. Suomi, englanti, ruotsi jne. nettisanakirja]). Выбор данного словаря экономической лексики был обусловлен его доступностью, а также тем, что он непосредственно связан с экономической прессой, поскольку размещен на сайте экономической газеты, и, соответственно, содержит лексику, ориентированную на читателя газетных статей. Мы также использовали данный словарь при написании грамматики.

Кроме этого, для проверки кандидатов в термины на терминологичность мы использовали Yleinen suomalainen ontologia (`Общая финская онтология'), сокращенно YSO [Finto: YSO - Yleinen suomalainen ontologia].

3.2 Разметка текстов

Собранный нами корпус был вручную очищен от гиперссылок и размечен с помощью инструмента частеречной разметки TreeTagger, встроенного в платформу SketchEngine. Мы использовали для разметки версию TreeTagger for Finnish v2.

TreeTagger -- инструмент для морфологической разметки текста, основанный на статистическом подходе. Он был разработан Г. Шмидом (H. Schmid) в Институте компьютерной лингвистики в Штутгартском университете. TreeTagger успешно применяется для разметки текстов на английском, немецком, французском, итальянском, испанском, русском, китайском, эстонском и других языках. Для обучения TreeTagger используется лексикон и вручную размеченный учебный корпус [TreeTagger].

Морфологические характеристики, используемые в финской версии TreeTagger, основаны на анализаторе OMorfi -- инструменте для морфологического анализа с открытым исходным кодом, созданном на кафедре современных языков Хельсинкского университета. Краткие формы тегов TreeTagger получены из более длинных тегов, используемых в Omorfi [Voutilainen, Purtonen, Muhonen, 2012, s. 11].

Ниже приведен пример морфологической разметки программой TreeTagger в вертикальном формате.

Табл. 2 -- Пример морфологической разметки TreeTagger

Словоформа

Часть речи (тег)

Лемма

Suomen

N_Prop_Gen_Sg

Suomi

sisukas

A_Nom_Sg

sisukas

kansa

N_Nom_Sg

kansa

on

V_Prs_Act_Sg3

olla

jддnyt

PrfPrc_Act_Nom_Sg

jддdд

jyrдn

N_Gen_Sg

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.