Извлечение терминов автоматическими методами (на материале финских текстов)

Термин - основная номинативная специальная лексическая единица, которая принимается для точного наименования понятий. Характеристика важнейших направлений экономического дискурса в финском языке в зависимости от целевой аудитории текстовой информации.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 30.10.2017
Размер файла 2,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

jyrд

alle

Adp_Po

alle

Примечание: изначально словоформа alle была размечена как Adv, что в данном контексте неверно.

3.3 SketchEngine и грамматики SketchEngine

SketchEngine -- онлайн-инструмент, широко используемый для различных лексикографических работ. Платформа SketchEngine позволяет работать с уже имеющимися корпусами (в частности, осуществлять поиск по лемме, строить конкордансы, делать запросы и так далее), а также создавать или загружать свои корпуса и обрабатывать их. В самом SketchEngine существует несколько корпусов на финском языке (fiTenTen, EUROPARL7, OPUS2, DGT, Araneum Finnicum Maius), но ни один из них не отвечал целям данной работы в силу своих размеров и тематики, поэтому мы загрузили в SketchEngine собранный нами корпус экономических текстов.

Табл. 3 -- Список корпусов финского языка, доступных в SketchEngine

Название корпуса

Объем в токенах

Объем в словах

fiTenTen

1 703 429 270

1,404,100,049

EUROPARL7

40, 979, 520

34,182,031

OPUS2

180,134, 681

131,985,872

DGT

47,397,459

35,129,923

Araneum Finnicum Maius

1,200,000,486

817,453,523

Одной из функций SketchEngine является извлечение ключевых слов и терминов (keywords and terminology extraction). Подход, используемый в платформе SketchEngine, является гибридным, поскольку извлечение терминов из размеченного корпуса происходит за счет выполнения следующих условий:

1) наличие частеречной разметки;

2) наличие размеченного эталонного корпуса (в нашем случае этим корпусом являлся fiTenTen);

3) наличие скетч-грамматики для извлечения терминов, с помощью которой в специальном корпусе выделяются элементы, соответствующие правилам грамматики, после чего частота их встречаемости в специальном корпусе сравнивается с частотой их встречаемости в эталонном корпусе [Kilgarriff et al., 2014, p. 53].

На 2013 год существовали подобные скетч-грамматики для китайского, английского, французского, немецкого, японского, корейского, русского, испанского и португальского языков.

Скетч-грамматика (sketch grammar) представляет собой набор правил, основанный на языке CQL (Corpus Query Language -- язык запросов к корпусу) и используемый в платформе SketchEngine для создания коллокаций и списков слов и словосочетаний (word sketches).

Запрос CQL описывается в виде шаблона, согласно которому из корпуса извлекаются токены. Каждому токену при разметке присваивается набор атрибутов (лемма, частеречный тег и так далее). Обычный CQL запрос выглядит следующим образом:

[attribute="value"]([атрибут="значение"]),

где attribute -- атрибут, присвоенный токену, а value представляет собой регулярное выражение. В значении также могут быть использованы логические операторы `и' (&) и `или' (|). [Jakubниek M. et al., 2010, p. 2]

Правило скетч-грамматики состоит из указания на тип правила, отмеченного астериском (*), названия правила, перед которым стоит знак равенства (=) и списка выражений языка запросов CQL. Также в начале правила может стоять пояснение, обозначенное знаком # [Benko, 2014, p. 421]. Например:

#economics

*UNARY

=talous

1:[(lemma=".*talou(s|d|t|ks).*")&tag="N_.*"]

где #economics -- дополнительный комментарий, *UNARY означает, что отношение унарно, то есть правило должно применяться только один раз (в этом случае будет использована только одна метка `1:').

Метка `1:' обозначает `ключевое слово' или лемму, для которого и создано правило грамматики.

tag задает часть речи и ее морфологические характеристики: в данном случае N_.* -- noun (существительное), собственное или нарицательное, стоящее в любом падеже, единственного или множественного числа [Voutilainen, Purtonen, Muhonen, 2012, s. 22]. Так, тег для нарицательного существительного, стоящего в номинативе единственного числа, будет выглядеть как:

N_Nom_Sg [теги].

Тег для имени собственного, стоящего в номинативе единственного числа, будет выглядеть как:

N_Prop_Nom_Sg [теги].

Регулярное выражение .*talou(s|d|t|ks).* задает любую лемму, в состав которой входят -talous-, -taloud-, -talout- или -talouks-.

Таким образом, согласно этому правилу должны выделяться существительные единственного или множественного числа, стоящие в любом падеже и имеющие в своем составе основы -talous-, -taloud-, -talout- или -talouks-.

3.3 Грамматика для извлечения терминов

Созданная нами грамматика SketchEngine извлекает списки слов и словосочетаний (word sketches) согласно 50 правилам для слов и одному - для словосочетаний (см. приложение 1).

Для написания набора грамматических правил мы отобрали, ориентируясь на [Taloussanakirja | Talousuutiset], ключевые слова-основы в количестве 50 единиц, которые:

1) являются терминами сами по себе:

talous `экономика', osake `акция', lasku `счет', vero `налог', luotto `кредит', markkina `рынок', pankki `банк';

2) являются основной частью сложного слова-термина:

sдhkцlasku `счет за электроэнергию', буквально `электричество-счет', pankkilaina (по запросу на основу laina) `банковский кредит', буквально `банк-кредит', pцrssiosake `биржевая акция', буквально `биржа-акция';

3) являются атрибутом сложного слова-термина:

osakeyhtiц `акционерное общество', буквально `акция-общество', velkakirja `долговое обязательство', буквально `долг-книга',
laskukausi `период экономического спада', буквально `спад-период'.

Таким образом, мы отобрали термины с хорошей деривационной способностью.

Дополнительным требованием являлась относительная однозначность лексической единицы: например, лексема etu (`выгода, преимущество') не вошла в наш список по причине длины и слишком большой вероятности того, что слово, содержащее данную лексему, не будет однокоренным с ним. По той же причине не вошла в наш список лексема otto (`снятие <денежных средств>'); кроме того, по своему составу она пересекалась с лексемой luotto (`кредит').

Для всех 50 ключевых слов мы написали правила, позволяющие извлекать из корпуса лексемы, в состав которых входят данные ключевые слова. Похожий метод используется в поисковой системе самого экономического словаря Taloussanakirja: так, по запросу на слово liike (`торговля') выдается список статей, ключевое слово которых содержит данную лексему в качестве части сложного слова [Taloussanakirja | Talousuutiset].

Например, для лексемы hinta (`цена') написано следующее правило:

*UNARY

=hinta

1:[(lemma=".*hint(a|o).*"|lemma=".*hinn(a|o).*")&tag="N_.*"]

Данное правило позволяет выделять словоформы, в состав которых входят основы -hinta- , -hinto- , -hinna- , -hinno-. Например:

hintataso -- `уровень цен', буквально `цена-уровень';

varallisuushintoja (партитив множественного числа от varallisuushinta) -- `цены активов';

neliцhinnat -- `цены за квадратный метр', буквально `квадратный метр-цены';

hinnoittelu -- `расценка' (в отличие от предыдущих случаев, это производное слово, а не сложное).

Наличие в значении различных основ (hinta- ,hinto- ,hinno- ,hinna-) обусловлено чередованием основы (-nt в слабой основе переходит в -nn) [Klusiilien astevaihtelu], а также особенностями образования множественного числа у данного слова (в двусложных словах, оканчивающихся на -a и имеющих в первом слоге гласную a, i или e, при присоединении показателя множественного числа -i происходит чередование гласных a: o) [VISK: §80]; к тому же, это позволяет выделять однокоренные термины, в которых данная лексема выступает в качестве атрибута сложного слова, поскольку существительное в составе сложного слова может выступать в разных падежах (чаще всего в номинативе или генитиве, но так же могут употребляться партитив, иллатив, адессив или инструктив) [VISK: §403, §415]. Указание части речи (tag="N_.*") ограничивает результат исключительно существительными, что помогает избежать однокоренных прилагательных и глаголов (которые, тем не менее, тоже могут быть терминами, но мы не ставим задачу по их выделению).

Существуют и более простые правила:

*UNARY

=lasku

1:[lemma=".*lasku.*"&tag="N_.*"]

Согласно данному правилу будут выделяться словоформы, содержащие основу -lasku-. Наличие в правиле грамматики выражения только для одной основы обусловлено тем, что у лексемы lasku (`счет') не происходит ни чередования основ, ни чередования гласных, как в предыдущем случае с лексемой hinta.

Для извлечения словосочетаний, содержащих термин, написано одно правило на примере лексемы talous (`экономика'):

*DUAL

=termi/adj

2:[tag="A_Nom_.*"] [tag="A_Nom_.*"]? 1:[lemma=".*talou(s|d).*"&tag="N_Nom_.*"]

2:[tag="A_Gen_.*"] [tag="A_Gen_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Gen_.*"]

2:[tag="A_Par_.*"] [tag="A_Par_.*"]? 1:[lemma=".*talou(t|ks).*"&tag="N_Par_.*"]

2:[tag="A_Acc_.*"] [tag="A_Acc_.*"]? 1:[lemma=".*talou(s|d).*"&tag="N_Acc_.*"]

2:[tag="A_Ill_.*"] [tag="A_Ill_.*"]? 1:[lemma=".*talou(t|ks).*"&tag="N_Ill_.*"]

2:[tag="A_Ine_.*"] [tag="A_Ine_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Ine_.*"]

2:[tag="A_Ela_.*"] [tag="A_Ela_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Ela_.*"]

2:[tag="A_All_.*"] [tag="A_All_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_All_.*"]

2:[tag="A_Ade_.*"] [tag="A_Ade_.*"]? 1 :[lemma=".*talou(d|ks).*"&tag="N_Ade_.*"]

2:[tag="A_Abl_.*"] [tag="A_Abl_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Abl_.*"]

2:[tag="A_Tra_.*"] [tag="A_Tra_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Tra_.*"]

2:[tag="A_Ess_.*"] [tag="A_Ess_.*"]? 1:[lemma=".*talou(t|ks).*"&tag="N_Ess_.*"]

2:[tag="A_Abe_.*"] [tag="A_Abe_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Abe_.*"]

2:[tag="A_Com_.*"] [tag="A_Com_.*"]? 1:[lemma=".*talou(t|ks).*"&tag="N_Com_.*"]

2:[tag="A_Ins_.*"] [tag="A_Ins_.*"]? 1:[lemma=".*talouks.*"&tag="N_Ins_.*"]

*DUAL означает, что выделяться будет больше одного слова, причем слово, помеченное маркером 1: , будет главным. В нашем случае это все слова, содержащие в своей структуре лемму talous в качестве основной части сложного слова, или же само слово talous.

Выражения типа 2:[tag="A_Nom_.*"] [tag="A_Nom_.*"]? могут задавать в качестве зависимого слова одно или больше прилагательных, согласованных с главным словом в падеже и числе и стоящих перед главным словом в силу особенностей синтаксиса финского языка. В отличие от правил для извлечения отдельных слов, мы не могли задать падеж прилагательного с помощью регулярного выражения tag="A_.*", поскольку в этом случае не выполнялось требование согласованности.

Таким образом, приведенное выше правило нашей скетч-грамматики задает поиск всех субстантивных словосочетаний, в состав главного слова которого входят основы -talous-, -taloud-, -talout- или -talouks- (в зависимости от падежа), зависимыми словами являются любые прилагательные (одно и больше), и данные словосочетания стоят в любом из пятнадцати падежей финского языка.

3.4 Результаты

Выделение терминологических словосочетаний

Проверка на нашем корпусе показала, что для лексемы talous (`экономика') в нем есть только 15 случаев субстантивных словосочетаний с прилагательным в качестве зависимого слова в номинативе и одно словосочетание, стоящее в аллативной форме. Мы дополнительно проверили работоспособность данного правила на корпусе fiTenTen и получили результаты для всех падежей, кроме абессива и комитатива, которые достаточно малоупотребительны и наряду с инструктивом считаются маргинальными (для инструктива в fiTenTen было выделено два словосочетания).

Из 15 словосочетаний, стоявших в номинативе, трижды встретилось устойчивое словосочетание julkinen talous (`экономика публичного сектора') и один раз -- словосочетание kotimainen talous (`национальная экономика'). В остальных случаях прилагательные либо выражали характеристику главного слова, как оценочную:

hidas <talouskasvu> -- `медленный <экономический рост, буквально `экономика-рост'>'

vaikea <taloustilanne> -- `сложная <экономическая ситуация, буквально `экономика-ситуация'>'

vastaiset <talouspakotteet> -- `ответные <экономические санкции, буквально `экономика-санкции'>',

так и количественную характеристику:

useimmat <kotitaloudet> -- `бомльшая часть <домашних хозяйств>`, буквально `большая часть домашних экономик',

либо представляли собой эпитет:

aneeminen <talous> -- `анемичная <экономика>`.

В случае аллатива в выделенном словосочетании прилагательное также выражало количественную характеристику:

useimmille <palkansaajakotitalouksille> -- бомльшей части <дословно: домашних хозяйств получателей зарплаты>.

Таким образом, было выделено всего два терминологических словосочетания: julkinen talous (`экономика публичного сектора') и kotimainen talous (`национальная экономика').

Выделение терминов.

В полученный список терминов также вошли лексемы, извлечение которых как кандидатов в термины было безошибочным.

Под безошибочным извлечением мы понимаем такое извлечение терминов, при котором все кандидаты в термины, находящиеся в конечном списке:

а) являются существительными (как мы уже писали раньше, мы понимаем термин как единицу специального языка, связанную с каким-либо научным понятием, и рассматриваем его исключительно как существительное);

б) являются производными от исходного слова (в процессе выделения были случаи, когда искомая основа совпадала с частью сложного снова, не имеющего отношения к лексеме, для которой проводился поиск);

в) их значение совпадает со значением термина в языке экономики (в случае многозначных и консубстанциональных терминов).

Ниже в таблице (Табл. 4) мы приводим полученные результаты для терминов, которые были выделены без ошибок.

Табл. 4 -- Результаты для терминов, выделение которых было безошибочным

Ключевое слово

Перевод

Число выделенных кандидатов в термины

Точность

indeksi

индекс

10

0,80

investointi

капиталовложение, инвестирование

86

0,77

kilpailu

конкуренция

91

0,58

kulut

расходы

90

0,67

kustannus

покрытие расходов

66

0,82

lasku

счет

74

0,65

luotto

кредит

37

0,78

markkina

рынок

241

0,71

osake

акция

79

0,71

rahasto

денежный фонд

39

0,54

siirto

перенос, передача

41

0,70

tappio

убыток

28

0,93

tuotanto

производство, продукция

44

0,68

vakuus

залог, гарантия

20

0,65

valuutta

валюта

77

0,76

vekseli

вексель

0

-

vienti

экспорт

95

0,52

В некоторых случаях в результатах встречались слова, которые являются терминами как в английском, так и в русском языках, но не входили ни в один словарь финского языка из тех, которыми мы пользовались для оценки.

Например:

arvonlisдverovapautus -- `освобождение от НДС',

veronmaksaja -- `налогоплательщик',

pддomavirrat -- `потоки капитала'.

В Таблице 5 (Табл. 5) мы приводим результаты для таких терминов-кандидатов, при выделении которых мы столкнулись с определенными ошибками, о которых будет сказано далее.

Табл. 5 -- Результаты для терминов, которые были выделены с ошибками

Ключевое слово

Перевод

Число выделенных кандидатов в термины

Точность

arvo

стоимость

117

0,85

finanssi

финансы

79

0,68

hinta

цена

183

0,82

kauppa

торговля

140

0,76

korko

процент

353

0,57

kurssi

курс

39

0,49

laina

ссуда, займ

149

0,53

lama

кризис

44

0,66

liike

бизнес

149

0,72

maksu

платеж

58

0,41

menot

расходы

36

0,69

omistaa

владеть

78

0,65

osto

покупка

135

0,22

palkka

заработная плата

87

0,36

palvelu

обслуживание

167

0,61

pankki

банк

449

0,76

pддoma

капитал

47

0,51

pцrssi

биржа

31

0,65

raha

деньги

531

0,55

seteli

купюра

56

0,64

sддtiц

фонд

14

0,86

talous

экономика

472

0,72

tase

баланс

35

0,91

tili

счет

43

0,47

tuki

финансовая поддержка

96

0,31

tulo

доход

188

0,62

tuote

продукт

61

0,75

vara

запас, средства

124

0,48

velka

долг

226

0,55

vero

налог

158

0,66

voitto

прибыль

38

0,79

yhtiц

компания

241

0,83

yritys

предприятие, фирма

316

0,77

3.5 Ошибки при автоматическом выделении терминов

При автоматическом выделении терминов мы столкнулись с несколькими типами ошибок.

1. Ошибки, связанные с морфологической разметкой TreeTagger, или ошибки в тегах.

Они в тегах были двух видов: в падеже или числе и в части речи.

1) Ошибки в падеже и/или числе.

В первом случае существенно ошибка не влияла на выделение: так, существительному taloustieteilijцillekin был присвоен тег N_All_Sg, что неверно -- taloustieteilijцillekin является существительным множественного числа и, следовательно, тег должен быть N_All_Pl. Аналогичная ошибка была допущена при разметке словоформы talousnдkemyksistддn: вместо тега N_Ill_Sg должен быть N_Ela_Pl, то есть, и падеж лексемы, и ее число были распознаны неверно. Но, как мы уже писали выше, подобные ошибки не оказали влияния на конечный результат.

2) Ошибки в части речи.

Во втором случае ошибка привела к тому, что были выделены слова, не являющиеся существительными. Например, словоформа maatalousvaltaisissa была определена как существительное единственного числа, стоящее в инессиве (тег N_Ine_Sg), что неверно: maatalousvaltainen является прилагательным, в данном случае стоящим в инессиве множественного числа, следовательно, тег должен быть A_Ine_Pl.

Аналогично в случае со словоформами velkaisin, velkaisimpien и velkaisimmista, определенными как существительное (N_Nom_Sg, N_Gen_Pl и N_Par_Sg соответственно), хотя данная лексема является прилагательным (начальная форма -- velkainen), следовательно, теги должны быть A_Nom_Sg, A_Gen_Pl и A_Ela_Sg. Кроме того, данное прилагательное в обоих случаях стоит в превосходной форме, но в конечной разметке это не отражено, хотя тег для суперлативной формы прилагательных есть в списке тегов, используемых в разметке TreeTagger.

Употребленное в причастном предложном обороте причастие lainaavansa было определено как существительное (N_Gen_Sg; правильный тег -- PrsPrc_Act_Gen_Sg).

Также при выделении слов, содержащих словоформы лексемы tuki (`<финансовая> поддержка'), как существительные были определены причастия oiotuista (N_Ela_Pl; правильный тег -- PrfPrc_Pass_Ela_Pl) и vaihdetuin (N_Nom_Sg; правильный тег -- PrfPrc_Pass_Nom_Sg).

Аналогичный случай имел место при выделении слов, содержащих лексему palkka (`заработная плата'): причастию palkkaavansa был присвоен тег N_Gen_Sg (правильный тег -- PrsPrc_Act_Gen_Sg).

При выделении терминов-кандидатов, связанных с лексемой vero (`налог'), были также выделены словоформы verotettavaakaan (N_Par_Sg, правильный тег -- PrsPrc_Pass_Par_Sg или Adj_Par_Sg, поскольку данная словоформа может быть либо пассивным причастием настоящего времени, либо прилагательным) и verotettavissa (N_Ine_Sg, правильный тег -- PrsPrc_Pass_Ine_Pl).

Словоформа kaupatakseen была выделена по правилу для лексемы kauppa (`торговля') с тегом N_Ill_Sg, хотя kaupatakseen является долгой формой первого инфинитива глагола kaupata (`продавать'), соответственно, правильным тегом будет V_Inf1_Tra_PxSg3.

При выделении терминов-кандидатов, содержащих лексему raha, из-за неверной разметки были выделены прилагательные rahakas (N_Gen_Sg, правильный тег -- A_Nom_Sg) и vapaarahoitteisesta (N_Ela_Sg, правильный тег -- A_Ela_Sg).

Также возникла проблема с разметкой имен собственных. Так, например, по грамматическому правилу для лексемы pankki (`банк') выделилось несколько названий банков:

Sberbank-pankki, Lloyds-pankki, HSBC-pankki, Hansapankki, Apple-pankki, Saksalaispankki.

Аналогично для лексемы yhtiц (`компания') были выделены такие названия компаний как Berner-yhtiц, <Migrit> Solarna-yhtiц, EQT-pддomasijoitusyhtiц.

Для лексемы palvelu (`обслуживание, сервис') были извлечены названия сервисов: Uber-taksipalvelu и <Underhood>. co-palvelu.

В случае лексемы sддtiц (`фонд') были извлечены названия Nuorisosддtiц и Y-sддtiц; в случае лексемы tuote (`продукт') -- название InnovFin-tuoteperhe.

Также было выделено название банковской карты Mastercard (Mastercard-maksukortti) при извлечении терминов, в состав которых входит лексема maksu (`платеж').

При выделении терминов-кандидатов, содержащих основу kauppa (`торговля'), было выделено название компании Finsilva в сложном слове Finsilva-kauppa, а также названия торговых центров: Itдkeskus-kauppakeskus и Forum-kauppakeskus.

Во всех вышеописанных случаях названия не были размечены как имена собственные (N_Prop_.*), что и привело к ошибкам.

2. Ошибки, связанные с выполнением правил грамматики.

1) Ошибки, связанные с семантикой слова, использованного в грамматике.

Зачастую ключевые слова, использованные нами в правилах грамматики, не являлись однозначными, причем не всегда их значения были связаны между собой.

Так, kauppa в стандартном языке означает обычный магазин, но в экономическом специальном языке данная лексема означает также торговлю, коммерцию, сделку. Это привело к тому, что среди выделенных терминов оказалось слово ruokakauppa (`продуктовый магазин').

В отличие от лексемы kauppa, значения которой все же относятся к одной и той же области, два значения лексемы yritys (`попытка' в стандартном языке и `предприятие, фирма' в специальном языке экономики) относятся к разным семантическим полям. В нашем корпусе yritys в значении `попытка' встретилось 8 раз (на 316 извлеченных терминов).

Извлекались также авторские слова, не являвшиеся авторскими терминами в силу того, что они зачастую несли дополнительный эмоциональный оттенок. Например, лексема tiedemieslaina (дословно: `займ у ученого', буквально: `ученый-займ') в авторском контексте означало `цитата':

Kun kerran komeasti Einsteinilla aloitin, pistдnpд vielд toisenkin tiedemieslainan: Hulluutta on se, ettд tekee samat asiat uudelleen ja uudelleen ja odottaa eri tuloksia.

Раз я так красиво начал с Эйнштейна, вставлю-ка еще одну цитату ученого: `Безумие: делать то же самое снова и снова, ожидая различные результаты'.

Также в текстах один раз встретилось такое сложное слово как tasemiina (tase -- `баланс', miina -- `мина', буквально: `балансовая мина'). Данную лексему сложно классифицировать как термин, но она несомненно является авторской метафорой.

В сложном слове finanssikдmmi главная часть -- kдmmi (`ошибка') дается в словаре с пометкой colloquial (`разговорный'), что не позволяет говорить о данной лексеме как о термине. Относящейся к разговорному языку также можно считать лексему taalaseteli, где taala -- разговорное название доллара, seteli -- купюра.

Много экспрессивной лексики встретилось в результате выделения лексем, содержащих в себе лексему raha (`деньги'), как то:

rahahana (`денежный кран', буквально `деньги-кран'), rahakoe (`денежное испытание', буквально `деньги-испытание'), rahakopteri (буквально: `деньгокоптеры' или `деньголеты'), raharuiske (`денежное впрыскивание', буквально `деньги-впрыскивание'), rahatemppu (`денежный трюк', буквально `деньги-трюк'), suosikkiraha (дословно: `любимые деньги').

Также к экспрессивной лексике можно отнести такие слова как setelisoppa (`суп из купюр', `денежный суп', буквально `купюра-суп') и setelisilppuri (`денежный шредер', буквально `купюра-шредер').

При выделении лексем, содержащих лексему arvo (`ценность, стоимость') была неоднократно выделена лексема eriarvoisuus (`неравенство'). Хотя она действительно является в какой-то степени производным словом от arvo (arvo > arvoinen > arvoisuus > eriarvoisuus), ее значение не вполне соответствует значению изначального слова.

Лексема tulo (`доход') является многозначной; в частности, в значении, обозначающем прибытие куда-либо, она используется для образования слов, которые и были выделены, например: mukaantulo (`вхождение <в компанию, концерн и т.д.>`), voimaantulo (`вступление в силу'), tulokas (`новичок, пришелец'), tulokasauma (`куча новичков').

Кроме того, существуют достаточно общеупотребительные выражения olla tulossa и tehdд tuloa (`приходить, быть на подходе'; буквально `находиться в прибытии', `совершать прибытие'), которые также были выделены. Подобные конструкции были выделены и в случае лексемы meno (в множественном числе -- `расходы'): olla menossa (`идти').

Похожая ситуация сложилась с лексемой liike (`движение', `бизнес'). Были выделены слова, образованные от liike со значением `движение' (как в прямом, так и в переносном смысле):

ay-liike или ammattiyhdistysliike -- `профсоюзное движение',

ryhtiliike -- `гимнастические движения, направленные на исправление осанки',

muuttoliike -- `переселение', `миграция',

kapinaliike -- `повстанческое движение'.

Кроме этого, выделялись слова, содержащие лексему liikenne (`движение, транспорт') или производные от нее, например, meriliikenne (`морской транспорт'), liikennцinti (`курсирование, движение').

Также была выделена сама лексема liike в значении `движение' - <lдhteд> liikeelle (`<отправиться> в путь').

Интересен случай с лексемой lottovoitto (`выигрыш в лотерею'), выделенной согласно правилу, написанному для лексемы voitto (`прибыль'). В данном контексте лексема lottovoitto используется в переносном значении, а voitto в его составе выступает в своем другом значении -- `выигрыш'.

При выделении слов, содержащих лексему kustannus (`покрытие расходов'), была выделена лексема kustannustoiminta (`издательское дело'), что было связано со вторым значением лексемы kustannus (`издание').

Кроме этого, помимо явных терминов, извлекались также метафоры - как устоявшиеся, так и нет, например:

hintahissi -- `ценовой лифт', означает постоянное изменение цен (обычно повышение).

2) Ошибки, связанные с составом слова, использованного в грамматике.

Как мы уже писали выше, мы старались подбирать ключевые слова с таким расчетом, чтобы избежать двусмысленности при выделении терминов. К сожалению, совсем исключить неоднозначность не получилось. Далее мы подробно рассмотрим все случаи подобных ошибок.

а) Первой лексемой, при извлечении которой мы столкнулись с такой проблемой, была лексема korko (`процент'). В данном слове происходит чередование основы: korko- (сильная основа)/koro- (слабая основа), поэтому изначально правило для выделения терминов выглядело так:

*UNARY

=korko

1:[(lemma=".*korko.*"|lemma=".*koro.*")&tag="N_.*"]

Согласно этому правилу выделялось достаточно много слов, содержащих лексему korotus (`повышение'). Всего таких слов было 34 на 387 извлеченных терминов.

Поэтому мы решили модифицировать правило с учетом полученных результатов:

*UNARY

=korko

1:[(lemma=".*korko.*"|lemma=".*koro.*")&lemma!=".*korotu.*"&tag="N_.*"]

Исключение из запроса основы korotu- никак не повлияло на производные от korko (`процент') в силу особенностей словообразования и чередования основ. Koro- является слабой основой слова, используемой в начале закрытого слога [Klusiilinen astevaihtelu], а следовательно, во всех местных падежах (кроме иллатива), в транслативе, абессиве, инструктиве, генитиве и для образования номинатива и аккузатива множественного числа. Но -tu- не является показателем какого-либо из этих падежей, следовательно, ни одна словоформа лексемы korko не исключается из поиска.

Что касается сложных слов, то в них используется либо номинативная, либо генитивная форма лексемы korko, например: ohjauskorko (`процентная ставка', буквально `управление-процент') или korkokate (`чистый процентный доход', буквально `процент-покрытие'), где korko -- номинативная форма, или koronnosto (`повышение процентов'), где koron -- генитивная форма.

Производные слова от korko могут образовываться от слабой основы, но в качестве производных будут выступать либо глаголы, либо прилагательные, которые будут отсеяны уже на этапе определения части речи. Кроме этого, -tu- не является словообразовательным суффиксом. Следовательно, ни одно производное сложное слово не будет пропущено при извлечении терминов.

б) При выделении лексем, содержащих лексему hinta (`цена'), была выделена словоформа louhinnan (начальная форма louhinta `дробление, добыча <полезных ископаемых>`). Лексема louhinta не имеет никакого отношения к лексеме hinta и образована от глагола louhia (`дробить', `добывать') путем прибавления суффикса -nta.

в) В случае с уже упомянутой выше лексемой tulo (`доход') выделились слова, содержащие лексему tulos (`результат'), например, lopputulos (`конечный результат'). Хотя доля подобных слов в нашем корпусе была невелика, проверка на корпусе fiTenTen показала, что количество слов, содержащих лексему tulo, и количество слов, содержащих лексему tulos, примерно одинаково.

В отличие от случая с лексемами korko и korotus, невозможно задать выделение лексем, содержащих исключительно лексему tulo и не содержащих лексему tulos, потому что если добавить в правило выражение lemma!=".*tulos.*" , то как минимум не будут выделяться инессивные и элативные формы лексемы tulo (показатели падежей -ssa и -sta соответственно), не говоря уже о сложных словах, в которых tulos будет образовываться на стыке морфем.

г) По правилу, написанному для лексемы tili (`счет') дважды была выделена лексема kotiliesiasiakas. В данном случае имеет место другое морфемное членение слова:

kotiliesiasiakas -- koti (`дом') + liesi (`очаг') + asiakas (`клиент')

Искомое tili образуется на стыке двух основ сложного слова: koti и liesi.

Аналогично в случае с лексемами brittilehti и ryhtiliikkeeltд, выделенными по тому же запросу:

brittilehti -- britti (`британский') + lehti (`газета')

ryhtiliike -- ryhti (`осанка')+ liike (`движение')

Лексема brittilehti была выделена, поскольку содержит сочетание tile- -- основу, указанную в правиле для форм множественного числа лексемы tili.

д) В случае уже упоминавшейся лексемы tuki (`<финансовая> поддержка'), было выделено несколько сложных слов, содержавших в себе лексему istuin (`местонахождение, центр, сиденье'), образованную от глагола istua (`сидеть') путем прибавления суффикса -in. Также была выделена лексема kiertue (`обращение', `оборот', `цикл'), словоформы johdannaisvastuita и johdannaisvastuiden -- партитив и генитив соответственно множественного числа леммы vastuu (`ответственность, обязательство, гарантия') и лексема tuijottaminen (`пристальное разглядывание').

Слова, в которые входили сочетания tui- и tue- выделялись за счет того, что при написании правила мы учли чередование основы данной лексемы (tue- -- слабая основа единственного числа, tui- -- слабая основа множественного числа).

Все вышеперечисленные лексемы по смыслу и значению никак не связаны с лексемой tuki.

е) При извлечении слов, содержащих лексему lama (`кризис', `спад', `<экономическая> депрессия') была выделена словоформа Uudellamaalla (начальная форма Uusimaa -- Уусимаа, область Финляндии). Совпадение произошло из-за того, что в данной лексеме склоняются обе части сложного слова, что и привело в адессивной форме (показатель -lla) к появлению lama на стыке морфем. Кроме того, лексема Uusimaa вообще не должна была быть выделена, поскольку она является именем собственным (названием административной единицы).

ж) Много проблем возникло при выделении слов, содержащих лексему osto (`покупка'): примерно половина результатов (50 из 135) не имеют отношения к данной лексеме. Чаще всего среди неверных результатов встречались лексемы, содержащие в своем составе nosto (`подъем') и neuvosto (`совет'), но были и другие, например, verkosto (`сеть'), tiedosto (`файл'). Это связано с тем, что -sto -- очень продуктивный словообразующий суффикс в финском языке, с помощью которого можно образовывать коллективные существительные от существительных, обозначающих отдельные предметы.

з) При выделении слов, содержащих лексему kurssi (`курс'), также выделялись слова, содержащие лексему konkurssi (`банкротство'). Хотя konkurssi тоже можно считать экономическим термином, данная лексема никак не связана с лексемой kurssi, следовательно, ее извлечение согласно данному правилу нежелательно.

и) При выделении слов, содержащих лексему tase (`баланс'), из корпуса была извлечена лексема taustaselvitys (`наведение справок'). Как и в случаях с лексемами tili и lama, причина заключается в другом морфологическом составе слова: данное сложное слово состоит из основ tausta (`фон') и selvitys (`выяснение'); на стыке морфем получается tase. Также по непонятной причине по данному запросу была выделена лексема markkina-asema.

к) В случае с выделением производных от лексемы vara (`запас'; во множественном числе -- `средства', `ресурсы') были выделены слова, содержащие лексему tavara (`товар'), слова, содержащие лексему varoitus (`предупреждение'), а также слова, содержащие префикс vara- (`запасной', `вице-', `заместитель').

л) При выделении лексем, содержащих лексему raha (`деньги'), была выделена словоформа vuokrahoivatilaratkaisuja, что неверно, поскольку данная лексема имеет другое морфемное членение:

vuokrahoivatilaratkaisu -- vuokra (`аренда') + hoiva (`опека') + tila (`пространство') + ratkaisu (`решение')

м) При извлечении кандидатов в термины, содержащих основу omist- (от omistaa -- `владеть'), были выделены термины ekonomisti (`экономист') и pддekonomisti (`главный экономист'), которые не являются производными от данной основы.

3.6 Выводы

В данной главе мы описали грамматику SketchEngine, с помощью которой нами проводилось извлечение терминов, описали материал исследования, результаты исследования и ошибки, возникшие при автоматическом извлечении терминов.

Типичная грамматика SketchEngine состоит из правил, написанных на CQL (Corpus Query Language -- языке запросов к корпусу, который используется в SketchEngine для создания коллокаций и списков слов и словосочетаний).

Мы проводили наше исследование на корпусе экономических текстов, собранном на различных сайтах экономических новостей и размеченном с помощью морфологического теггера TreeTagger, существующего в системе SketchEngine.

Результаты мы оцениваем как положительные: в среднем точность извлеченных кандидатов в термины превышает 0,60. Надо отметить, что в нашей оценке могут быть погрешности, поскольку при проверке результатов и вычислении точности мы не пользовались полноценным словарем экономической лексики. В частности, при проверке по онтологии мы неоднократно сталкивались со случаями, когда термин-кандидат входил в состав сложного слова-термина, но сам по себе как термин обозначен не был.

К сожалению, нам не удалось избежать определенных ошибок -- как на уровне разметки, так и на уровне функционирования грамматики.

На уровне разметки ошибки касались падежа или числа лексемы, что никак не влияло на конечный результат, и части речи, что приводило к лишним словам в списках слов: в частности, как существительные были распознаны прилагательные и причастия настоящего времени, входящие в причастный предложный оборот. В случае причастий причиной неправильной разметки может быть притяжательный показатель, характерный для данного оборота, в то время как в обычных предложениях притяжательный показатель присоединяется исключительно к существительным и никогда не присоединяется ни к прилагательным, ни к причастиям.

На уровне функционирования грамматики ошибки были связаны либо с семантическим значением выделяемого термина (в случае его многозначности), либо с его написанием и морфологической структурой (в случае другого морфемного членения кандидата в термины). Такого рода ошибок было больше, чем ошибок, связанных с разметкой, что обусловлено наличием в правиле для одной лексемы нескольких основ.

Заключение

Количество специальной лексики в языке с каждым годом увеличивается в силу того, что все сферы человеческой жизни быстро развиваются: возникают новые объекты и явления, для которых необходимы новые наименования, изменяется содержание уже существовавших понятий, что приводит к необходимости изменений в названиях.

В большинстве случаев все эти новоприобретенные языком слова могут считаться терминами -- единицами специального языка, которые выражают основные характеристики научного понятия.

Термин может образоваться через словообразование, терминологизацию или заимствование из других языков, а также через сочетание этих способов.

Существует несколько классификаций терминов как в рамках русского языкознания, так и в рамках финской лингвистики. С точки зрения морфемной структуры термины-слова могут быть непроизводными, производными, сложными и аббревиатурами, а с точки зрения части речи -- существительными, глаголами, прилагательными и наречиями. Стоит также отметить, что, по мнению некоторых исследователей, термином может быть исключительно существительное. В нашем исследовании мы выделяли только термины-существительные, большая часть которых являлась сложными словами.

Корпус, которым мы пользовались для исследования, состоит из газетных статей на экономическую тему (в качестве источников нами использовались финноязычные новостные сайты). Объем корпуса -- 50 тыс. токенов. Корпус был размечен с помощью морфологического теггера TreeTagger, существующего в системе SketchEngine.

Мы также рассмотрели существующие системы для автоматического выделения терминов. В большинстве из них используется статистический подход, хотя в некоторых привлекается дополнительная лингвистическая информация (например, морфологическая разметка).

Наш подход, использующий инструмент SketchEngine, также является гибридным, поскольку в нем используются правила, опирающиеся на морфологические характеристики.

Для извлечения терминов мы загрузили свой корпус в систему SketchEngine, разметили его с помощью TreeTagger и написали скетч-грамматику из 51 правила: 50 -- для выделения слов, 1 -- для словосочетания (см. приложение 1). В некоторых случаях мы дополнительно проверяли работоспособность правил грамматики на корпусе fiTenTen.

Результаты мы оцениваем в целом как положительные: хотя точность извлеченных кандидатов в термины зависит от конкретного случая, (максимальная точность - 0,93, минимальная - 0,22) в целом точность колебалась в районе 0,50 - 0,70, а поскольку наш подход подразумевал выделение всех терминов, содержащих заданную основу, мы можем говорить о 100% полноте. Тем не менее, наша оценка весьма приблизительна, поскольку мы не использовали полноценный словарь экономической лексики для проверки результатов. Мы также не пользовались помощью специалиста в данной области.

Кроме терминов по правилам нашей грамматики выделялись также лексемы, несшие дополнительный экспрессивный оттенок или имевшие метафорическое значение. Мы считаем, что дальнейшее изучение подобных случаев представляет особый интерес с точки зрения семантики, стилистики и словообразования финского языка.

К сожалению, нам не удалось избежать определенных ошибок -- как на уровне разметки, так и на уровне функционирования грамматики. Мы сделали небольшую классификацию ошибок и подробно рассмотрели каждый случай.

Мы бы хотели отметить значение нашего исследования для морфологической разметки TreeTagger for Finnish v2. В ходе исследования нами были выявлены определенные ошибки, связанные с неправильной разметкой. Мы надеемся, что наши замечания будут полезны при дальнейшей ручной проверке данной разметки.

Литература

1. Бабенко О.В. Linguistic aspects of the economic term system.

2. Браславский П.И., Соколов Е.А. Сравнение пяти методов извлечения терминов произвольной длины.

3. Герд А.С. Ещё раз об автоматизации лексикографических работ // Советская лексикография, Научный совет по лексикологии и лексикографии Академии Наук СССР. М.: Русский язык. С. 225-232 // La Filolуgica por la Causa, 2014.

4. Герд А.С. Значение термина и научное знание / А.С. Герд // Научно-техническая информация. Сер. 2. - 1991. - № 10. - С. 1-4.

5. Герд А.С. Основы научно-технической лексикографии. Л., 1986.

6. Герд А.С. Прикладная лингвистика. СПб., 2005. Разделы I и II.

7. Головин Б.Н., Кобрин Р.Ю. Лингвистические основы учения о терминах. М.: Высшая школа, 1987. -- 105с.

8. Гринев-Гриневич С.В. Терминоведение. М.: Издательский центр `Академия', 2008. -- 304с.

9. Жеребило Т.В. Словарь лингвистических терминов, издание 5-е, исправленное и дополненное. Назрань: ООО `Пилигрим', 2010. - 486с.

10. Лантюхова Н.Н., Загоровская О.В., Литвинова Т.А. Термин: определение понятия и его сущностные признаки // Вестник Воронежского института ГПС МЧС России, 2013, выпуск № 1 (6).

11. Лейчик В.М. Терминоведение: предмет, методы, структура. М., 2006.

12. Лейчик В.М., Шелов С.Д. Лингвистические проблемы терминологии и научно-технический перевод // Серия `Теория и практика научно-технического перевода': Обзор информации. Вып. 18. Часть II. М.: Всесоюзный центр переводов научно-технической информации и документации, 1990. 80с.

13. Литовченко В.И. Классификация и систематизация терминов // Вестник Сибирского государственного аэрокосмического университета им. академика М.Ф. Решетнева, 2006, выпуск № 3, с. 156-159.

14. Лотте Д.С. Основы построения научно-технической терминологии. М.: АН СССР, 1961.

15. Маслов Ю.С. Введение в языкознание: Учеб. для филол. спец. вузов. --2-изд., перераб. и доп. -- М.:Высш. шк., 1987. 272с.

16. ПРОМТ объявляет о выпуске нового продукта ПРОМТ Terminology Manager.

17. Хакулинен Л. Развитие и структура финского языка. Часть II // Лексикология и синтаксис. М., 1955.

18. Шелов С.Д. Еще раз об определении понятия `термин' // Вестник Нижегородского университета им. Н.И. Лобачевского, 2010, выпуск № 4-2, с. 795-799.

19. Яковлев Н.Ф. Грамматика литературного кабардино-черкесского языка. М., 1948.

20. Benko V. Compatible Sketch Grammars for Comparable Corpora // Proceedings of the XVI EURALEX International Congress: The User in Focus, Bolzano/Bozen, 2014.

21. Cabrй, M. T., Estopа, R., Vivaldi, J. Automatic term detection: a review of current systems // Bourigault, D.; Jacquemin, C.; L'Homme, M-C. (2001) Recent Advances in Computational Terminology, p. 53-88.

22. Corcodel D., Corcodel A. On the specialized language of economic field // STUDIA UNIVERSITATIS MOLDAVIAE, 2014, nr.10(80), p.122-124. URL: http://oaji.net/articles/2015/2055-1432569893.pdf (дата обращения: 19.05.2016).

23. Fkih F., Omri M. N., Complex Terminology Extraction Model from Unstructured Web Text based Linguistic and Statistical Knowledge // IJIRR: International Journal of Information Retrieval Research. 2(3), 1-18, 2013.

24. Ison suomen kieliopin verkkoversio (VISK). Kotimaisten kielten tutkimuskeskus, 2008.

25. Jackson, P., Moulinier, I. Natural Language Processing for online applications: text retrieval, extraction and categorization. John Benjamins Publishing Company, 2002. - 226 p.

26. Jakubниek M., Kilgarriff A., McCarthy D., Rychlэ P. Fast syntactic searching in very large corpora for many languages. Japan, PACLIC 2010.

27. Kilgarriff A., Jakubниek M., Kovбш V., Rychlэ P., Suchomel V. Finding Terms in Corpora for Many Languages with the Sketch Engine // Proceedings of the Demonstrations at the 14th Conference the European Chapter of the Association for Computational Linguistics, Sweden, April 2014, p. 53-56.

28. Klusiilien astevaihtelu // Verkkokielioppi. Suomen kielen ддnne-, muoto- ja lauseoppia.

29. Korpela, J. Suomen kielen yhdyssanamuodot (kompositiivit).

30. Kupњж, A. Extraction automatique de termes а partir de textes polonaise // TALN 2007. Toulouse: 2007.

31. Language resources and tools | Sketch Engine.

32. Museanu, E. Economic terminology -- new perspectives.

33. Resche C. Equivocal Economic Terms or Terminology Revisited // Journal des traducteurs /Translators' Journal, vol. 45, n° 1, 2000, p. 158-173.

34. Вахрос И., Щербаков А. Большой финско-русский словарь. М., 2007.

Приложение 1

Грамматика SketchEngine для выделения терминов

Word Sketch Engine#Word Sketch Engine Sketch Grammar for Finnish

*STRUCTLIMIT s

*DEFAULTATTR tag

*UNARY

=talous

1:[(lemma=".*talou(s|d|t|ks).*")&tag="N_.*"]

*UNARY

=vero

1:[lemma=".*vero.*"&tag="N_.*"]

*UNARY

=korko

1:[(lemma=".*korko.*"|lemma=".*koro.*")&lemma!=".*korotu.*"&tag="N_.*"]

*UNARY

=velka

1:[(lemma=".*velk(a|o).*"|lemma=".*vel(a|oi).*")&tag="N_.*"]

*UNARY

=kauppa

1:[(lemma=".*kaupp(a|o).*"|lemma=".*kaup(a|o).*")&tag="N_.*"]

*UNARY

=hinta

1:[(lemma=".*hint(a|o).*"|lemma=".*hinn(a|o).*")&tag="N_.*"]

*UNARY

=vienti

1:[(lemma=".*vient(i|e).*"|lemma=".*vienni.*")&tag="N_.*"]

*UNARY

=laina

1:[(lemma=".*lain(a|o).*")&tag="N_.*"]

*UNARY

=yritys

1:[lemma=".*yrity(s|ks).*"&tag="N_.*"]

*UNARY

=tuotanto

1:[(lemma=".*tuotanto.*"|lemma=".*tuotanno.*")&tag="N_.*"]

*UNARY

=arvo

1:[lemma=".*arvo.*"&tag="N_.*"]

*UNARY

=markkina

1:[lemma=".*markkin(a|oi).*"&tag="N_.*"]

*UNARY

=pankki

1:[(lemma=".*pankk(i|e).*"|lemma=".*pank(i|e).*")&tag="N_.*"]

*UNARY

=rahasto

1:[lemma=".*rahasto.*"&tag="N_.*"]

*UNARY

=tulo

1:[lemma=".*tulo.*"&tag="N_.*"]

*UNARY

=osake

1:[(lemma=".*osake.*"|lemma=".*osakke.*")&tag="N_.*"]

*UNARY

=tili

1:[lemma=".*til(i|e).*"&tag="N_.*"]

*UNARY

=finanssi

1:[lemma=".*finanss(i|e).*"&tag="N_.*"]

*UNARY

=pцrssi

1:[lemma=".*pцrss(i|e).*"&tag="N_.*"]

*UNARY

=raha

1:[lemma=".*rah(a|o).*"&tag="N_.*"]

*UNARY

=tuki

1:[(lemma=".*tuk(i|e).*"|lemma=".*tu(e|i).*")&tag="N_.*"]

*UNARY

=investointi

1:[(lemma=".*investoint(i|e).*"|lemma=".*investoinn.*")&tag="N_.*"]

*UNARY

=yhtiц

1:[lemma=".*yhtiц.*"&tag="N_.*"]

*UNARY

=liike

1:[(lemma=".*liike.*"|lemma=".*liikke.*")&tag="N_.*"]

*UNARY

=kilpailu

1:[lemma=".*kilpailu.*"&tag="N_.*"]

*UNARY

=kulu

1:[lemma=".*kulu.*"&tag="N_.*"]

*UNARY

=kustannus

1:[lemma=".*kustannu(s|ks).*"&tag="N_.*"]

*UNARY

=pддoma

1:[lemma=".*pддom(a|i).*"&tag="N_.*"]

*UNARY

=lama

1:[lemma=".*lam(a|o).*"&tag="N_.*"]

*UNARY

=luotto

1:[(lemma=".*luotto.*"|lemma=".*luoto.*")&tag="N_.*"]

*UNARY

=tappio

1:[lemma=".*tappio.*"&tag="N_.*"]

*UNARY

=voitto

1:[(lemma=".*voitto.*"|lemma=".*voito.*")&tag="N_.*"]

*UNARY

=meno

1:[lemma=".*meno.*"&tag="N_.*"]

*UNARY

=lasku

1:[lemma=".*lasku.*"&tag="N_.*"]

*UNARY

=osto

1:[lemma=".*osto.*"&tag="N_.*"]

*UNARY

=omistaminen

1:[lemma=".*omist.*"&tag="N_.*"]

*UNARY

=palkka

1:[(lemma=".*palkk(a|o).*"|lemma=".*palka.*")&tag="N_.*"]

*UNARY

=palvelu

1:[lemma=".*palvelu.*"&tag="N_.*"]

*UNARY

=seteli

1:[lemma=".*setel(i|ei).*"&tag="N_.*"]

*UNARY

=kurssi

1:[lemma=".*kurss(i|e).*"&tag="N_.*"]

*UNARY

=siirto

1:[(lemma=".*siirto.*"|lemma=".*siirro.*")&tag="N_.*"]

*UNARY

=sддtiц

1:[lemma=".*sддtiц.*"&tag="N_.*"]

*UNARY

=tase

1:[lemma=".*tase.*"&tag="N_.*"]

*UNARY

=tuote

1:[(lemma=".*tuote.*"|lemma=".*tuotte.*")&tag="N_.*"]

*UNARY

=vakuus

1:[lemma=".*vakuu(s|t|d|ks).*"&tag="N_.*"]

*UNARY

=valuutta

1:[(lemma=".*valuutt(a|o).*"|lemma=".*valuut(a|o).*")&tag="N_.*"]

*UNARY

=vara

1:[lemma=".*var(a|o).*"&tag="N_.*"]

*UNARY

=vekseli

1:[lemma=".*veksel(i|ei).*"&tag="N_.*"]

*UNARY

=indeksi

1:[lemma=".*indeks(i|e).*"&tag="N_.*"]

*UNARY

=maksu

1:[lemma=".*maksu.*"&tag="N_.*"]

*DUAL

=termi\adj

2:[tag="A_Nom_.*"] [tag="A_Nom_.*"]? 1:[lemma=".*talou(s|d).*"&tag="N_Nom_.*"]

2:[tag="A_Gen_.*"] [tag="A_Gen_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Gen_.*"]

2:[tag="A_Par_.*"] [tag="A_Par_.*"]? 1:[lemma=".*talou(t|ks).*"&tag="N_Par_.*"]

2:[tag="A_Acc_.*"] [tag="A_Acc_.*"]? 1:[lemma=".*talou(s|d).*"&tag="N_Acc_.*"]

2:[tag="A_Ill_.*"] [tag="A_Ill_.*"]? 1:[lemma=".*talou(t|ks).*"&tag="N_Ill_.*"]

2:[tag="A_Ine_.*"] [tag="A_Ine_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Ine_.*"]

2:[tag="A_Ela_.*"] [tag="A_Ela_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Ela_.*"]

2:[tag="A_All_.*"] [tag="A_All_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_All_.*"]

2:[tag="A_Ade_.*"] [tag="A_Ade_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Ade_.*"]

2:[tag="A_Abl_.*"] [tag="A_Abl_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Abl_.*"]

2:[tag="A_Tra_.*"] [tag="A_Tra_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Tra_.*"]

2:[tag="A_Ess_.*"] [tag="A_Ess_.*"]? 1:[lemma=".*talou(t|ks).*"&tag="N_Ess_.*"]

2:[tag="A_Abe_.*"] [tag="A_Abe_.*"]? 1:[lemma=".*talou(d|ks).*"&tag="N_Abe_.*"]

2:[tag="A_Com_.*"] [tag="A_Com_.*"]? 1:[lemma=".*talou(t|ks).*"&tag="N_Com_.*"]

2:[tag="A_Ins_.*"] [tag="A_Ins_.*"]? 1:[lemma=".*talouks.*"&tag="N_Ins_.*"]

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.