Возможности использования сервиса RusVectores для выявления семантических ассоциатов глаголов русского языка
Анализ возможностей дистрибутивной семантики в ее реализации в виде Web-сервиса RusVectores. Классификация семантических отношений, полученных в результате выявления семантических ассоциатов глаголов. Особенности отношения гипонимии и согипонимии.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 26.01.2019 |
Размер файла | 58,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
[CC BY 4.0] [НАУЧНЫЙ ДИАЛОГ. 2018. № 9]
Размещено на http://www.allbest.ru/
117
[CC BY 4.0] [НАУЧНЫЙ ДИАЛОГ. 2018. № 9]
117
Институт математики им. С. Л. Соболева СО РАН; заведующая кафедрой фундаментальной и прикладной лингвистики, Новосибирский государственный университет
Возможности использования сервиса RusVectфrзs для выявления семантических ассоциатов глаголов русского языка
Тимофеева Мария Кирилловна,
доктор филологических наук,
старший научный сотрудник
Аннотация
Представлены результаты анализа возможностей дистрибутивной семантики в её реализации в виде Web-сервиса RusVectфrзs. Рассматривается вопрос об использовании данного сервиса для изучения семантики глаголов русского языка. Актуальность исследования обусловлена недостаточностью информации о лингвистических возможностях дистрибутивной семантики в целом. Новизна состоит в том, что вопрос об использования инструмента RusVectфrзs для изучения глагольной семантики поставлен впервые. Предлагается классификация семантических отношений, полученных в результате выявления семантических ассоциатов глаголов. Материалом послужили две выборки по 30 слов, для каждой из них посредством сервиса RusVectфrзs было построено множество ассоциатов, общее количество которых составило 468 лексем. Особое внимание уделяется семантическим отношениям, описываемым в терминах лексических функций, поскольку такие ассоциаты оказались наиболее частотными для глаголов; общее количество выявленных лексических функций равно 28. Показано, что чаще всего встречаются функции, соответствующие видовым вариантам глаголов, отношениям синонимии и конверсии. Установлено, что среди семантических отношений, отличных от лексических функций, наиболее частотными являются отношения гипонимии и согипонимии, реже выявляются ситуационные связи и актанты рассматриваемых глаголов. Уделяется внимание ряду деталей, существенных для использования инструментария лексических функций применительно к семантически отношениям, выявляемым посредством сервиса RusVectфrзs.
Ключевые слова: лексическая семантика; дистрибутивная семантика; лексические функции, машинное обучение; глаголы русского языка; RusVectфrзs. семантика ассоциат глагол дистрибутивный
Annotation
Possibility of Extracting Semantic Associates of Russian Verbs by the Instrument RusVectфrзs
Timofeeva Mariya Kirillovna Doctor of Sciences in Philology, senior researcher of the Sobolev Institute of mathematics, Siberian Branch of the Russian Academy of Sciences; Head of the Section of Fundamental and Applied Linguistics of the Institute of Humanities, Novosibirsk State University (Novosibirsk, Russia)
The paper presents the results of investigating distributional semantics' potential in its realization in the form Web-service RusVectфrзs. The question about applying the service for studying semantics of Russian verbs is considered. The research urgency is caused by insufficient level of information about linguistic possibilities of distributional semantics in whole. The novelty of the research consist in the fact that the question about applying the instrument RusVectфrзs for investigating verb semantics is posed for the first time. Classification of semantic relations extracted by RusVectфrзs for Russian verbs is proposed. The analyzed data include two lists of entry verbs and the set of semantic associates for each verb; the integral set of considered semantic associates consists of 468 verbs. Special attention is paid to semantic relations that can be treated as lexical functions because this sort of relations appeared to be the most frequent for Russian verbs; the whole number of extracted lexical functions is equal to 28. It is shown that lexical functions that correspond to aspectual variants of verbs, to synonymic relations and conversion are the most frequent; hyponyms and co-hyponyms are the most frequent among semantic relations that differ from lexical functions; situational relations and actant relations are comparatively rare. Special attention is paid to the details that are important for applying the instruments of lexical functions to semantic relations extracted for verbs by the service RusVectфrзs.
Key words: lexical semantics; distributional semantics; lexical functions; machine learning; Russian verbs; RusVectфrзs.
Введение
Развитие компьютерных средств анализа очень больших объёмов языковых данных открыло возможность разработки новых методов лингвистического исследования, в которых язык предстаёт как изменчивая реальность (Energeia), обладающая, вместе с тем, определённым постоянством [Гумбольдт, 2000, с. 70]. Возможность обработки больших объёмов данных позволяет изучать оба названных аспекта: изменчивость языка при его использовании в разных сферах и наличие инвариантных свойств, характерных для любой сферы.
Примером успешного использования в лингвистике методов работы с большими объёмами языковых данных являются корпусные исследования. В настоящее время существует ряд общедоступных ресурсов с удобным интерфейсом, предоставляющих широкие возможности применения в области корпусной лингвистики. Варьируя состав рассматриваемых корпусов и / или способ их разметки, можно изучать особенности речевой деятельности в разных её реализациях, либо исследовать её инвариантные свойства.
Инвариантные свойства могут быть, в частности, операциональными, то есть представлять собой определённые последовательности операций, производимых с языковыми данными и приводящих к лингвистически значимым результатам.
Одним из примеров операциональных инвариантных свойств можно считать исследовательские модели, имитирующие деятельность лингвиста. Такие модели воспроизводят процедуры, используемые лингвистами для обнаружения языковых явлений [Апресян, 1966, с. 99--100]. Исходным материалом анализа является текст, возможно, сегментированный на правильно построенные фразы или размеченный определённым образом. Применение исследовательских процедур к таким входным данным должно приводить к обнаружению (изначально неизвестных) грамматических и лексических структурных составляющих рассматриваемого языка. Впервые целенаправленной разработкой такой модели начали заниматься дескриптивные лингвисты. Они предложили исследовательские процедуры, основанные на анализе дистрибуции, и стремились сделать эти процедуры максимально формализованными, как можно более независимыми от субъективности исследователя и от смысла рассматриваемых текстов. Понятно, что максимальная независимость такого рода достигается тогда, когда применение исследовательских операций осуществляет компьютер. Поэтому в случае компьютерной реализации методов дескриптивной лингвистики её можно было бы отнести к ранним этапам развития машинного обучения. Сами дескриптивные лингвисты, конечно, в таких терминах свой подход не обсуждали.
Дистрибутивная семантика, основывающаяся на анализе совместной встречаемости слов в текстах и родственная идеям дескриптивной школы американской лингвистики, относится к числу методов машинного обучения. Возможности дистрибутивной семантики в настоящее время активно исследуют в связи с разработкой систем информационного поиска и другими прикладными задачами общего назначения, для решения которых требуется автоматическая обработка текстов естественного языка.
Методы машинного обучения могут со временем стать столь же полезным инструментом исследования языка, как и корпусы, однако пока их потенциал для собственно лингвистических исследований остаётся неясным. Тем не менее можно привести ряд примеров использования методов машинного обучения для решения задач, являющихся по своей сути лингвистическими.
Такие методы, например, нашли применение и демонстрируют неплохие результаты в системах автоматического перевода Google и Яндекс [Калинин, 2017]. Машинное обучение применяется для автоматического выявления актантов [Кузнецов, 2016], обучение здесь происходит на основе корпуса примеров из FrameBank [Ляшевская, 2009].
Пример использования дистрибутивной семантики для решения по сути лингвистической задачи описан в [The emergence …, 2010; A quantitative philology …, 2012]. Здесь применён один из вариантов дистрибутивной семантики -- латентный семантический анализ, или LSA (Latent Semantic Analysis), -- базирующийся на гипотезе о том, что семантически связанные слова должны совместно встречаться в текстах сходной тематики. Данный метод использован для изучения динамики употребительности слов и словосочетаний, указывающих на интроспекцию, в текстах разных эпох, начиная с периода 800--200 годов до нашей эры и заканчивая хх веком нашей эры. Как показало исследование, обращения к интроспекции с течением времени растут, авторы связывают это с появлением и развитием письменности (и соответственно необходимости запоминания и рационального осмысления текстов), культурным и ментальным развитием, анатомическими мозговыми изменениями.
Изучение лингвистического потенциала дистрибутивной семантики требует времени, так как реализация данного метода может происходить в разных режимах, на основе разных алгоритмов, разных принципов сбора и разметки текстов. Настоящая статья посвящена исследованию лингвистических возможностей общедоступного Web-сервиса RusVectфrзs [Kutuzov et al, 2017], реализующего алгоритмы дистрибутивной семантики.
Цель состоит в анализе и классификации семантических ассоциатов, выявляемых для глаголов русского языка посредством RusVectфrзs. Ранее были рассмотрены типы семантических ассоциатов, выявляемых посредством указанного сервиса для существительных [Тимофеева, 2018]. Для глаголов аналогичная задача не ставилась. Изучение данного вопроса поможет понять возможности использования сервиса в области глагольной семантики.
Базовые понятия, материалы и методы
При использовании методов машинного обучения применительно к материалу естественного языка компьютер «обучается» выполнению определённых действий на основе анализа очень больших объёмов текстов. На том же принципе работы основаны методы дистрибутивной семантики. Семантика слова здесь характеризуется вектором в многомерном пространстве текстов, позиции в составе таких векторов отражают совместную встречаемость слов в контекстах заданной длины. Реализация общих идей дистрибутивной семантики имеет варианты, можно выбирать тип и размер рассматриваемого контекста, используемые алгоритмы, корпусы, по которым производится обучение. Работа сервиса RusVectфrзs основана на использовании моделей, построенных по текстам с морфологической разметкой. В результате морфологической разметки словоформы одной лексемы объединяются и представлены в тексте начальной формой лексемы.
Поскольку задача классификации семантических отношений, выявляемых для глаголов русского языка посредством сервиса RusVectфrзs, ранее не ставилась и результат заранее был неясен, сначала рассматривалась пробная выборка. Задачи анализа пробной выборки состояли в следующем:
1. исходя из того, что отношение синонимии является одним из базовых семантических отношений в области лексики, выяснить, насколько эффективен сервис для выявления синонимов глаголов;
2. выделить класс наиболее часто выявляемых сервисом семантических отношений и исследовать возможности их выявления более детально на дополнительной выборке.
Для составления пробной выборки были взяты 30 первых по порядку опорных слов-глаголов из «Словаря синонимов русского языка» [СС, 1970]. Каждому из них сервис поставил в соответствие по 10 семантически близких слов (что составляет столько же семантических отношений). Из числа набранных 300 слов были исключены ошибочные слова (обусловленные ошибками в текстах или недостатками работы алгоритмов морфологического анализа), дубликаты и словоформы, относящиеся к одной лексеме. В итоге объём пробной выборки составил 228 лексем и столько же семантических отношений.
Далее на основе пробной выборки были определены принципы составления и обработки дополнительной выборки. Вторая выборка также состояла из 30 первоначально отобранных слов (в число которых входило 11 слов из «Толково-комбинаторного словаря русского языка» (ТКС) [ТКС, 2016]), для каждого слова сервис выявил по 10 семантически близких слов, связанных семантическими отношениями с данным словом. В сумме это составило 300 слов. После исключения ошибочных слов, дубликатов и лишних словоформ в данной выборке осталось 240 слов и столько же семантических отношений. Таким образом, суммарное количество рассмотренных семантических отношений составило 468.
При классификации выявленных для глаголов семантических отношений использовались сведения из «Словаря синонимов русского языка» [СС, 1970], электронного тезауруса RuWordNet [Лукашевич, 2011] и «Толково-комбинаторного словаря русского языка» [ТКС, 2016].
Анализ материала первой выборки показал, что среди выявленных семантических отношений многие подходят под понятие лексической функции (61,84 %). Поэтому вторая выборка составлялась с целью более детального изучения возможностей выявления лексических функций.
Понятие лексической функции было введено в модели автоматического перевода «СМЫСЛ ? ТЕКСТ» [Мельчук, 1974], послужившей основой для разработки «Толково-комбинаторного словаря русского языка» (ТКС) [ТКС, 2016]. Каждая лексическая функция соответствует определённому регулярному семантическому отношению между словами / словосочетаниями и отражает идиоматику рассматриваемого языка. Относительно общего количества функций точной оценки нет, в ТКС использованы 62 элементарные функции, на основе которых могут строиться сложные функции. Сложная функция определяется как «такая комбинация синтаксически связанных простых лексических функций, которые имеют единое лексическое выражение, покрывающее смысл всей комбинации целиком» [ТКС, 2016, с. 107].
Лексические функции описываются в виде формул вида F(w) = {w1,…,wn), где w1,…, wn -- слова или словосочетания, являющиеся возможными результатами применения лексической функции F к слову или словосочетанию w. Если возможный результат применения функции единственен, то фигурные скобки можно не использовать. К числу хорошо известных элементарных лексических функций относятся функции Syn и Anti, то есть отношения синонимии и антонимии соответственно: Syn (языкознание) = {лингвистика, языковедение}; Anti (надеяться) = сомневаться.
хотя, строго говоря, значением лексической функции является множество, этот же термин применяется и к элементам данного множества [Мельчук, 1974, с. 101], например, допустимо говорить, что лингвистика -- значение функции Syn (языкознание).
Ниже кратко описаны только те элементарные лексические функции, которые встретились при анализе семантических отношений, выявленных посредством RusVectфrзs. Более полный список стандартных лексических функций описан в [ТКС, 2016, с. 98--109] и [Мельчук, 1974, с. 78--133]. Сервис RusVectфrзs работает на уровне слов, а не словосочетаний. Соответственно в роли аргумента w лексической функции в нашем случае может выступать только лексема. Обозначим эту лексему символом L.
Conv (L) -- конверсив, то есть лексема, по смыслу совпадающая с лексемой L, но предполагающая другой порядок актантов. Изменение порядка актантов указывается в виде числового индекса, например, Conv21 (восхищаться) = восхищать. Таким образом предполагается, что для данной лексемы стандартный порядок следования актантов таков: на первом месте субъект действия, представленного глаголом, на втором месте -- объект этого действия. В результате конверсии субъект и объект меняются местами. Для глаголов с большим числом актантов возможно несколько вариантов перестановок.
S0 (L), A0 (L), V0 (L) -- синтаксические дериваты лексемы L, совпадающие с ней по смыслу и являющиеся соответственно существительным, прилагательным, глаголом. Например, S0 (просить) = просьба, A0 (восторгаться) = восторженный, V0 (учиться) = обучаться. Значением функции S0 не обязательно должен быть словообразовательный вариант лексемы L (например, в [ТКС, 2016, с. 415] приведено значение S0 (светать) = заря), однако такие случаи в рассмотренном материале не встретились.
Значением функции Si (L) является типовое название i-го глубинносинтаксического актанта лексемы L, например, S1 (учиться) = ученик, S3 (учиться) = учитель.
Значением функции Ai (L) является типовое свойство i-го глубинно-синтаксического актанта лексемы L, например, A2 (понимать) = понятный.
Функция Magn (L) служит для выражения интенсивности смысла s, обозначенного лексемой L (s в высшей степени проявления), например, Magn (обещать) = твёрдо.
Если L -- лексема со сложным смыслом, предполагающим несколько шкал интенсивности, то возможно несколько вариантов функции Magn, которые обычно различаются посредством индексов. Например, Magntemp (дождь) = затяжной, Magnкапли (дождь) = крупный. Мы не будем рассматривать подобные нюансы, так как на имеющемся материале это приводит к слишком дробной классификации. По той же причине не будут учитываться индексы функции Conv.
Функции Incep (L) и Fin (L) служат для обозначения соответственно смыслов «начало процесса, обозначенного лексемой L» и «завершение процесса, обозначенного лексемой L», например, Incep (спать) = засыпать, Fin (гневаться) = остывать.
Функции Imperf (L) и Perf (L) соответствуют незавершённости и завершённости действия, например, Perf (понимать) = понять, Imperf (прыгнуть) = прыгать.
Функция Gener (L) служит для обозначения родового по отношению к L понятия. Например, Gener (сомневаться) = чувство. Формальные критерии установления этой функции описаны в [Мельчук, 1974, с. 84--85].
Функции Real (L) и Result (L)обозначают соответственно реализацию и результат процесса L, например, Real (учиться) = научиться, Result (учиться) = {знать, уметь}.
Примеры сложных лексических функций: ConvPerf (удивлять) = удивиться, SynConv (учиться) = преподавать.
Кроме лексических функций, при построении классификации семантических отношений были использованы отношения гипонимии, согипонимии, ситуационной связанности понятий, отношения с потенциальными глубинно-синтаксическими актантами глагола. Понятие х считалось гипонимом понятия Y, если х представляет собой частную форму реализации действия или процесса Y, например, спрыгнуть -- гипоним по отношению к прыгнуть. Понятие х считалось согипонимом понятия Y, если оба эти понятия подпадают под одно и то же родовое понятие, например, интересовать и волновать. Отношение ситуационной связанности имеется, например, между понятиями, обозначенными словами обещать и просить. Семантическая связь между глаголом и его потенциальными глубинносинтаксическими актантами была выявлена, например, для глагола плясать, которому сервис поставил в соответствие потенциальные актанты цыганочка и джига.
Основная задача анализа второй выборки состояла в изучении применимости сервиса RusVectфrзs для выявления лексических функций. Поэтому при построении классификации семантических отношений в первую очередь рассматривалась возможность трактовки каждого отношения как реализации лексической функции. Только в том случае, если это оказывалось невозможным, семантическое отношение включалось в другой класс, то есть могло трактоваться как гипоним, согипоним, ситуационная связь, актантная связь.
Анализ результатов
Среди семантических отношений важное место занимает синонимия. Анализ результатов использования сервиса RusVectфrзs для слов из пробной выборки показал, что для 30 опорных слов-глаголов из «Словаря синонимов русского языка» [СС, 1970], входящих в эту выборку, было обнаружено 17,61 % словарных синонимов, то есть эффективность сервиса для выявления таких синонимов для глаголов не очень высока. Для второй выборки аналогичная оценка не проводилась, так как слова выбирались не из синонимического словаря.
Вместе с тем синонимия -- одно из наиболее часто выявляемых сервисом семантических отношений.
В построенной классификации множество выявленных синонимов складывается из синонимов-дериватов (результатов применения к исходному глаголу функции V0) и синонимов, не являющихся дериватами (результатов применения функции Syn).
Например, V0 (плясать) = {выплясывать, отплясывать}. В тезаурусе RuWordNet указанные три глагола считаются синонимами. Тем самым использование лексических функций разделило отношение синонимии на собственно синонимию, представленную не дериватами, и синонимию дериватов, в сумме это даёт 29 случаев, что составляет 12,08 % от числа всех выявленных при анализе второй выборки семантических отношений или 20,57 % от числа всех семантических отношений, отнесённых к числу лексических функций.
Сервис RusVectфrзs работает на уровне лексики, поэтому разные значения слова неразличимы. Синонимом считалось слово, являющееся таковым хотя бы для одного из значений.
Поскольку доля лексических функций среди выявленных для пробной выборки семантических отношений оказалась довольно высокой, была поставлена задача проследить, какие лексические функции чаще выявляются посредством RusVectфrзs. Для этого была составлена дополнительная выборка. Она состояла из тех семантических групп глаголов, для которых на пробной выборке было выявлено большее количество лексических функций. Это глаголы, обозначающие конкретные действия, осуществляемые человеком, прежде всего глаголы движения (например, прыгать, ехать, плясать, смеяться, взять), говорения (например, сказать, обещать, спорить), ментального или эмоционального состояния (например, понимать, интересовать, досадовать, восхищать, удивлять, надеяться). Среди рассмотренных в составе дополнительной выборки слов было 11 глаголов, содержащихся в ТКС (варить, восхищать, досадовать, завтракать, обещать, надеяться, победить, понимать, сниться, удивлять, учиться).
Результаты анализа дополнительной выборки (табл. 1) показывают, что доля лексических функция среди выявленных семантических отношений близка к той, которая получена для пробной выборки (для пробной выборки 61,84 %, для дополнительной выборки 58,75 %). Имеются функции, выявленные в первой выборке, но отсутствующие во второй (например, Caus, CausFin, AntiBon, Sloc). Некоторое уменьшение доли выявленных лексических функций во второй выборке свидетельствует о том, что необходимо дальнейшее исследование и уточнение семантических типов глаголов, применительно к которым эффективно использовать сервис для выявления лексических функций.
Таблица 1
Типы семантических отношений
Тип семантического отношения |
Количество |
% |
|
Лексическая функция |
141 |
58,75 |
|
Согипонимия |
40 |
16,67 |
|
Гипонимия |
31 |
12,92 |
|
Ситуационная связь |
18 |
7,50 |
|
Актант |
10 |
4,17 |
|
Итого |
240 |
Поскольку использование дополнительной выборки было нацелено на более детальное изучение возможности выявления лексических функций, при построении классификации предпочтение отдавалось именно такой интерпретации отношений. Например, отношение между глаголами сигать и прыгать в электронном тезаурусе RuWordNet обозначено как синонимия (RuWordNet не опирается на инструментарий лексических функций). При анализе результатов дополнительной выборки данное отношение трактовалось как лексическая функция: Magn (прыгать) = сигать.
В результате обращение к лексическим функциям сузило понятия синонимии и гипонимии, а также заменило отношение гиперонимии на функцию Gener. Так, лексемы интересовать и заинтересовывать отнесены в электронном тезаурусе RuWordNet к числу синонимов. В построенной классификации они не считаются синонимами, а связаны как аргумент и значение лексической функции: Incep (интересовать) = заинтересовывать. В тезаурусе изобразить считается гиперонимом по отношению к рисовать, в построенной классификации использовано соотношение PerfGener (рисовать) = изобразить. Видовые формы в RuWordNet часто включаются в число синонимов, вместо этого в построенной классификации использованы лексические функции Imperf и Perf, например, Perf (восхищать) = восхитить), Imperf (услышать) = слышать.
Перечень лексических функций, выявленных посредством сервиса RusVectфrзs для второй выборки, включает 28 функций (табл. 2). Среди них 17 элементарных функций, что составляет 27 % от числа всех элементарных лексических функций, приведённых в ТКС. Функции Perf, Syn, Conv, V0 встретились наибольшее число раз. Кроме элементарных лексических функций, выявлено 11 сложных функций.
Надо заметить, что некоторые функции принципиально не могли встретиться на рассмотренном материале. Это прежде всего функции типа Oper, Func, Labor, аргументами которых являются существительные. В силу ограничений сервиса не могли встретиться также функции, значениями которых являются предлоги (Loc, Instr, Propt).
Таблица 2
Типы лексических функций
Название |
Количество |
% (от 141) |
Название |
Количество |
% (от 141) |
||
1 |
Perf |
22 |
15,60 |
A0 |
2 |
1,42 |
|
2 |
Syn |
18 |
12,77 |
A2 |
2 |
1,42 |
|
3 |
Conv |
17 |
12,06 |
Anti |
2 |
1,42 |
|
4 |
V0 |
11 |
7,80 |
Fin |
2 |
1,42 |
|
5 |
S0 |
9 |
6,38 |
AntiMagn |
2 |
1,42 |
|
6 |
Gener |
9 |
6,38 |
ImperfSyn |
2 |
1,42 |
|
7 |
Incep |
7 |
4,96 |
IncepSyn |
2 |
1,42 |
|
8 |
PerfSyn |
7 |
4,96 |
ImperfConv |
1 |
0,71 |
|
9 |
Imperf |
5 |
3,55 |
IncepConv |
1 |
0,71 |
|
10 |
Magn |
4 |
2,84 |
ConvPerf |
1 |
0,71 |
|
11 |
S2 |
3 |
2,13 |
PerfGener |
1 |
0,71 |
|
12 |
IncepPerf |
3 |
2,13 |
Result |
1 |
0,71 |
|
13 |
Real |
3 |
2,13 |
ResultPerf |
1 |
0,71 |
|
14 |
S1 |
2 |
1,42 |
SynConv |
1 |
0,71 |
|
Всего лексических функций: 141 |
Количественное преобладание функции Perf по сравнению с функцией Imperf объясняется тем, что во второй выборке представлены преимущественно глаголы несовершенного вида. Для глаголов совершенного вида сервис выявлял лексическую функцию Imperf. Надо отметить, что в некоторых случаях переход к глаголу другого вида добавляет определённые смысловые элементы, соответственно результат уже трактуется как функция, отличная от Perf или Imperf. Например, для глагола интересовать найден ассоциат заинтересовать, который трактуется как сложная функция: IncepPerf (интересовать) = заинтересовать, аналогично Perf (обещать) = пообещать, PerfSyn (обещать) = посулить. Сложно разграничивать функции Perf и Real. Так в статье ТКС для слова учиться (ТКС, 2016, с. 508--510) найденные сервисом RusVectфrзs ассоциаты доучиться, проучиться, выучиться не трактуются как функции Perf: выучиться и доучиться описываются посредством функции Real, проучиться -- как нестандартная лексическая функция. Чтобы избежать излишне дробной классификации семантических отношений, нестандартные лексические функции не рассматривались, поэтому ассоциат проучиться был также отнесён к функции Real. Видовые ассоциаты для нескольких глаголов (например, сказать, надеяться, плясать) выявлены не были.
Количество выявленных лексических функций было бы несколько больше, если бы рассматривались альтернативные варианты трактовок. Поскольку грани между функциями зачастую очень тонкие, в некоторых случаях они имеют одинаковую лексическую реализацию, например, Perf (обещать) = Sing (обещать) = пообещать (ТКС, 2016, с. 301). В таких случаях учитывался только один вариант трактовки, предпочтение отдавалось наиболее частотному из них, в данном случае была выбрана функция Perf.
Выводы
1. Основной результат проделанной работы состоит в демонстрации возможности использования сервиса RusVectфrзs для выявления лексических функций глаголов. Анализ дополнительной выборки позволил более детально изучить типологические и количественные характеристики лексических функций глагола, выявляемых посредством рассматриваемого сервиса.
2. Количество найденных лексических функций сравнительно велико для глаголов, обозначающих конкретные действия человека (движение и другие физические действия, ментальные и эмоциональные состояния, коммуникацию). Однако вопрос о семантических типах глаголов, для которых сервис наиболее эффективен в плане выявления лексических функций, нуждается в уточнении.
3. Анализ состава и частот выявленных лексических функций показал, что чаще всего в число ассоциатов попадают функции Perf / Imperf, Syn / V0, Conv (в сумме 51,77 % от количества всех выявленных лексических функций). Почти все встретившиеся сложные функции также содержат эти элементы: IncepPerf, IncepSyn, IncepConv, SynConv, ImperfConv, PerfGener, ImperfSyn, ResultPerf, ConvPerf. В перспективе, при увеличении объёма текста для машинного обучения, количество выявляемых лексических функций может возрасти как количественно, так и качественно.
4. Сервис выявляет довольно большое количество синонимов, однако сравнение с данными словаря синонимов русского языка [СС, 1970] показывает, что доля обнаруживаемых словарных синонимов не очень велика (17,61 %).
5. Среди семантических отношений, отличных от лексических функций, наиболее часто выявляются гипонимы и согипонимы (в сумме 29,58 %). Эти отношения были наиболее частотными для семантических ассоциатов существительных, выявляемых посредством сервиса RusVectфrзs [Тимофеева, 2018]. Для глаголов доля гипонимов и согипонимов оказалась меньше, так как некоторые из таких семантических отношений попали в число лексических функций.
Проведённый анализ показал, что сервис RusVectфrзs может быть полезен для исследований в области глагольной семантики. Представляется актуальным также изучение возможностей применения дистрибутивной семантики для выявления авторских / стилистических особенностей, формулируемых в терминах лексических функций.
Литература
1. Апресян Ю. Д. Идеи и методы современной структурной лингвистики (краткий очерк) / Ю. Д. Апресян. Москва: Просвещение, 1966. 305 с.
2. Гумбольдт В. Избранные труды по языкознанию / В. Губольдт. Москва: Прогресс, 2000. 400 с.
3. Калинин С. М. Обзор современных подходов к улучшению точности нейронного машинного перевода / С. М. Калинин. Rhema. Рема. 2017. № 2. С. 70--79.
4. Кузнецов И. О. Автоматическая разметка семантических ролей в русском языке: диссертация … кандидата филологических наук / И. О. Кузнецов. Москва, 2016. 178 с.
5. Лашевская О. Н. Семантические роли и сеть конструкций в системе FrameBank / О. Н. Ляшевская, Е. В. Кашкин // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной конференции «Диалог». Москва: РГГУ, 2013. С. 827--846.
6. Лукашевич Н. В. Тезаурусы в задачах информационного поиска / Н. В. Лукашевич. Москва: Издательство Московского университета, 2011. 512 с.
7. Мельчук И. А. Опыт теории лингвистических моделей «СМЫСЛ ? ТЕКСТ»: семантика, синтаксис / И. А. Мельчук. Москва: Наука, 1974. 315 с.
8. Тимофеева М. К. Типология семантических отношений, выявляемых посредством инструмента RusVectфrзs / М. К. Тимофеева // Научный диалог. 2018. № 8. С. 74--87.
9. A quantitative philology of introspection / C. G. Diuk, D. F. Slezak, L. Raskovsky, M. Sigman, G. A. Cecchi // Frontiers in integrative neuroscience. 2012. Vol. 329, No. 5998. P. 1541--1543.
10. Kutuzov A. Webectors: A Toolkit for Building Web Interfaces for Vector Semantic Models / A. Kutuzov, E. Kuzmenko // Ignatov D. et al. (eds). Analysis of Images, Social Networks and Texts. Series: Communications in Computer and Information Science: Proceedings 5th International Conference, AIST 2016, 7--9 April 2016 g., g. Yekaterinburg. Springer, Cham, 2017. Vol. 661 -- P. 155--161.
11. The emergence of the modern concept of introspection: a quantitative linguistic analysis / L. Raskovsky, D. F. Slezak, C. G. Diuk, G. A. Cecchi // Young investigator workshop on computational approaches to languages of the Americas: Proceedings of the NAACL. Los Angeles, California, 2010. P. 68--75.
Размещено на Allbest.ru
...Подобные документы
Вербоцентрическая концепция Теньера-Холодовича и квантитативное направление в лингвистике. Структура, семантические и хронологические признаки. Анализ семантических признаков глагольной лексики экономической, юридической и синтетической направленностей.
курсовая работа [31,1 K], добавлен 20.03.2011Представление о частях речи как классах, полученных на основе совокупности признаков. Анализ безличных глаголов с точки зрения их семантики. Изучение безличных глаголов из "Словаря русского языка" С.И. Ожегова, их специфика и семантическая классификация.
реферат [38,8 K], добавлен 16.11.2010Анализ структуры сложных слов немецкого языка, их характерные структурные типы. Классификация немецких композитов на основе двух принципов: морфологического и семантико-синтаксического. Семантические отношения между компонентами существительных, глаголов.
курсовая работа [23,0 K], добавлен 24.11.2009Понятие функциональной грамматики и функционально-семантических полей. Сопоставительный анализ средств выражения предположительности в английском и немецком языках с целью выявления типологически схожих и несхожих черт. Статус и функция модальных слов.
дипломная работа [162,7 K], добавлен 05.11.2013Основы идеи личностно-ориентированного обучения в современных условиях. Глобальный характер перехода на новую образовательную парадигму. Описание ассоциативных полей и его этапы. Распределение ассоциатов на основе обобщающих семантических признаков.
реферат [96,5 K], добавлен 06.09.2009Семантическая структура префиксальных производных. Характер взаимодействия префиксов и производящих основ разных лексико-семантических групп. Функционирование префиксальных глаголов в английском языке. Префиксальное словообразование во французском языке.
дипломная работа [72,0 K], добавлен 25.11.2011Лексико-семантические группы (ЛСГ) глаголов с суффиксом "-ирова-" в русском языке и их роль в формировании языковой картины мира. ЛСГ как явления лексической парадигматики. Новые перспективы выявления семантико-словообразовательных особенностей ЛСГ.
курсовая работа [52,4 K], добавлен 05.06.2009Исследование семантических группировок в рамках классической и когнитивной лингвистики. Принципы построения лексико-семантического поля. Построение и сравнительный анализ лексико-семантических полей "свобода" и "freedom" в русском и английском языках.
дипломная работа [978,4 K], добавлен 25.03.2011Эволюция глаголов в английском языке, системы сильных и слабых глаголов. Претерито-презентные, неправильные и супплетивные глаголы. Морфологическая классификация английских глаголов. Анализ древнеанглийских глаголов на примере памятников письменности.
курсовая работа [52,6 K], добавлен 14.11.2012Проблема правильного и уместного употребления слов. Единицы языка как ячейки семантики. Морфемы полнозначных слов. Типы семантических отношений. Возможность соединения слов по смыслу в зависимости от реальной сочетаемости соответствующих понятий.
курсовая работа [40,2 K], добавлен 02.01.2017Описание системных связей отдельных лексико-семантических групп (ЛСГ) – необходимый этап в познании системной организации словарного состава английского языка. Наименования домашних животных представляют собой одну из семантических группировок в языке.
курсовая работа [39,4 K], добавлен 28.03.2008Место фразовых глаголов в лексической системе английского языка. Практические особенности употребления глаголов. Сходства и различия текстов английских и русских информационных сообщений. Функционирование фразовых глаголов в средствах массовой информации.
курсовая работа [48,6 K], добавлен 13.11.2015Анализ функций словосочетаний, их диагностические признаки. Понятие номинального ряда словообразовательной семантики, ее структура. Особенности двувидовых и одновидовых глаголов в русском языке. Характеристика грамматических возможностей глаголов.
дипломная работа [82,0 K], добавлен 16.05.2012Слова широкой семантики: определение и признаки. Отличительные характеристики широкозначности и многозначности. Особенности функционирования широкозначных глаголов современного английского языка, выявление общей тенденции в изменении их значения.
курсовая работа [58,4 K], добавлен 02.06.2014Трактовка переходности в концепциях отечественных и зарубежных лингвистов. Семантико-синтаксический анализ переходных глаголов, употребляющихся безобъектно. Классификация переходных глаголов. Факторы, влияющие на употребление переходных глаголов.
дипломная работа [117,0 K], добавлен 15.11.2009- Составление тезауруса по теме "Горный и пешеходный туризм" на материале русского и испанского языков
Определение понятия "тезаурус", обзор идеографических словарей. Особенности выявления элементов (семантических групп) и ключевых слов предметной области тезауруса "горный и пешеходный туризм" в русском и испанском языках, приемы сопоставления элементов.
курсовая работа [55,1 K], добавлен 26.10.2015 История отечественного терминоведения. Выявление лексических и семантических особенностей специального текста для применения этих знаний в практике моделирования семантики специального текста. Требования к терминам, их анализ. Понятие фоновой лексики.
курсовая работа [106,3 K], добавлен 14.11.2009Категория модальности как языковой универсалии, ее значение в лингвистике, грамматико-лексические поля. Основные значения, словарные объяснения основных модальных глаголов русского языка. Формы модальных глаголов в немецком языке, их место в предложении.
дипломная работа [269,5 K], добавлен 23.05.2010Словарный состав современного русского языка. Отражение процессов, происходящих в обществе, в лексике языка. Использование авторских неологизмов: семантических, лексических и окказионализмов. Роман Т.Н. Толстой "Кысь" как "энциклопедия русской жизни".
курсовая работа [56,8 K], добавлен 03.09.2013Многозначность английских модальных глаголов. Значения возможности и необходимости. Степень вероятности сообщаемого, зона неопределенности. Связь модальности и времени. Эвиденциальная поддержка, обоснование вывода. Отрицательные формы модальных глаголов.
статья [21,5 K], добавлен 29.06.2013