Ресурсы и арсенал электронных корпусов в современной лексикографии
Рассмотрение современных разработок и использования корпусных словарей на базе информационных технологий. Изучение общих принципов построения корпусов, методов их исследования и потенциала корпусной лингвистики. Корпусные словари татарского языка.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 10.01.2019 |
Размер файла | 26,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Казанский инновационный университет имени В.Г. Тимирясова (ИЭУП)
Ресурсы и арсенал электронных корпусов в современной лексикографии
Чумарина Гузель Раисовна, к. филол. н.
Введение электронных корпусных словарей в лингвистическую науку является неизбежным и очень значительным вкладом в развитие языка. Исследования на основе корпусов стали основной методологией, используемой во многих отраслях лингвистики. С 1990-х годов корпусные словари стали применяться в переводе. Рассмотрим потенциал и методы исследований на основе корпусов.
В настоящее время приоритетной целью является создание широкого поля лингвистических знаний в форме лингвистических описаний, как можно более полных и используемых многократно, структурированных в большую базу лингвистических знаний или в разные типы связанных между собой лингвистических баз (базы грамматических знаний, лексических, текстуальных).
После упоминания актуальных тенденций в разных областях, а также определения возможностей информационной лингвистической системы, перейдем к факту, что лексикография (являясь профессией языковой индустрии) имеет очень долгую традицию, и создание языковой базы данных с подобающим содержанием и размерами является очень затратным и требует много времени.
Благодаря многочисленным источникам машинных словарей мы получаем лексическую информацию в многоязыковом контексте, для того чтобы создать единую многоязыковую базу лексических знаний, одним из направлений использования которых являются исследования в области перевода. Однако реализация автоматического перевода сталкивается с определенными препятствиями, которые еще предстоит преодолеть. «Системы машинного перевода текстов с одних естественных языков на другие моделируют работу человека-переводчика. Их эффективность зависит прежде всего от того, в какой степени в них учитываются объективные законы функционирования языка и мышления» [1]. Электронные словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. Следует отметить, что «электронный словарь - это особый лексикографический объект, в котором могут быть реализованы и введены в обращение многие продуктивные идеи, не востребованные по разным причинам в бумажных словарях» [3]. Дальнейшее развитие и возможные перспективы информационных технологий неоспоримо оказывают влияние на лексикографию в целом и на программное обеспечение электронных словарей в частности. «Если при теоретических исследованиях лингвисты действительно редко учитывают реальные возможности вычислительной техники, то выбор оптимальных решений конкретных лингвистических задач в рамках… автоматических словарей в значительной степени зависит именно от уровня развития вычислительной техники» [4, с. 10].
Одним из ведущих направлений современной прикладной и математической лингвистики является корпусная лингвистика, занимающаяся разработкой общих принципов построения и применения лингвистических корпусов с использованием информационных технологий. Исследование национальных языков на достоверном материале с использованием современных компьютерных технологий автоматической обработки текстов позволяет выработать новые подходы к решению актуальных проблем изучения и исследования национальных языков.
Термин «корпусная лингвистика» появился в 1980-х годах. Корпусная лингвистика занимается изучением закономерностей языка на материале больших объемов текстов (корпусов), которые систематизированы, размечены и обработаны в электронной форме. Хотя эта методология была давно известна в бумажном виде. Одним из самых значительных примеров корпусного бумажного словаря является Оксфордский словарь английского языка, опубликованный в бумажном варианте в 1928 г., представляющий из себя собрание 5 млн. словарных статей, собранных во второй половине XIX века и первой половине XX века. В настоящее время мы можем увидеть Оксфордский словарь английского языка в электронном виде онлайн [10]. С развитием компьютерных технологий корпусные исследования языка стали появляться в конце 1980-х годов, охватывая все большее количество областей лингвистики и связанных с ней дисциплин. Популярность этой области исследования может быть подтверждена целым рядом книг и статей, опубликованных по данной теме за рубежом. Со временем корпусные словари значительно увеличились в размере. Например, Оксфордский корпус [9] английского языка имеет 2 млрд. слов, Корпус Современного американского английского языка - более 400 млн. слов [7], Американский Национальный корпус - 22 млн. слов [5], а Британский Национальный корпус - более 100 млн. слов [6].
Рассмотрим вопрос: что такое корпус? Корпусный словарь определяется как репрезентативная информационно-справочная система, основанная на базе данных информатизированных текстов, собранных с целью их лингвистического анализа. Корпус включает в себя различные типы письменных и устных текстов, представленных в данном языке, различные типы словарей, а также разметку - информацию о свойствах текстов. Анализ корпуса лежит в основе корпусной лингвистики. Корпусная лингвистика не является однородной методологией, она используется с разной степенью детализации и разной опорой на количественные и качественные методы, со следующими особенностями: распознаваемый машиной естественный язык, сбалансированный и репрезентативный проект корпуса, систематический и исчерпывающий анализ. Следующие особенности характерны для работы с корпусами:
анализ основан на корпусе или корпусах естественного языка, который распознается машиной, следовательно, поиск образцов для исследования осуществляется с помощью информационных технологий;
корпус должен быть сбалансированным, а также репрезентативным в отношении модальности/записи/ разноплановости, на которые нацелено исследование;
анализ является (или стремится к тому, чтобы быть) систематическим и исчерпывающим. Это означает, что корпус не просто служит базой данных примеров, из которых можно выбрать нужные, а другими можно пренебречь, а весь корпус (или образец корпуса) принимается во внимание. Итак, под лингвистическим, или языковым, корпусом текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, филологически компетентный массив языковых данных, предназначенный для решения лингвистических задач.
Корпус показывает, что является центральным и типичным, нормальным и ожидаемым. Он подчеркивает, что использование языка является очень точным и выверенным, и такое разнообразие языка является не случайным, а когнитивно мотивированным. Все находится в сочетании друг с другом. Другое важное влияние корпусов состоит в том, что они предполагают лингвистический анализ за пределами отдельно взятого слова как основы семантической единицы. Отметим, что лингвистическое описание слов должно включать и конструкции, в которых они появляются.
В целом можно обозначить следующие главные преимущества исследований языка на основе корпусов: уменьшенное количество предположений, гипотез и субъективных выводов; аутентичность базы данных; потенциал для систематической проверки исследовательских гипотез, основанных на более обширном лингвистическом материале. Из недостатков можно отметить проблемы с репрезентативностью и балансом: любые заявления и обобщения, которые мы делаем о выборке языка, которую мы исследуем, не является показателем всего языка.
В качестве методов исследования корпусная лингвистика отдает приоритет наблюдению. Оно классифицируется как составная часть научной деятельности, входящая как необходимый элемент в процедуру всех лингвистических методов и приемов, набор правил выделения из текста или потока речи языковых фактов и включения их в изучаемую категорию или систему. Правила наблюдения формулируют закономерности отбора фактов, установления их признаков, уточнения предмета наблюдения и описания наблюдаемых явлений. Наблюдение является индуктивным приемом исследования, который позволяет установить закономерности при помощи индукции, выведения общего правила из наблюдений над ограниченным количеством фактов, подчиняющихся общему правилу. В то же время это количественный метод, который также интегрирует качественные характеристики для выведения гипотезы о базе данных, предоставляемой корпусом, и для формирования генерализаций об использовании языка. С привлечением корпуса текстов определенного языка возможны более обширные и объективные исследования тех или иных аспектов языка и культуры малочисленных народов. Необходимо уточнить, что корпусы текстов могут состоять из текстов как устной, так и письменной речи. Письменные корпусы включают в себя тексты различных жанров (проза, официальные документы и др.), что позволяет им максимально соответствовать критерию репрезентативности. Для языков, обладающих небольшим объемом литературных источников и письменных памятников, а также для языков малочисленных народов с ограниченным ареалом их употребления составить письменный корпус является довольно сложной задачей. Для таких языков, в частности, «корпус устных текстов… представляется именно тем собранием языковых данных, которое обеспечивает наиболее полное отображение реалий исследуемого языка» [2].
Существует полемика: является ли корпусная лингвистика методологией или теорией? Превалирующий взгляд состоит в том, что это не теория или независимая область лингвистики. Она не определена объектом изучения. Объектом изучения является не исследование корпусов, а скорее исследование языка через корпуса. В основном корпусная лингвистика рассматривается как методология, которая разработала свои собственные систематические методы и принципы применения корпусов для исследований использования языка; следовательно, это методология с «теоретическим статусом», используемая во многих областях и теориях лингвистики [8]. Например, она применяется для описания разных областей языка (дескриптивная лингвистика): в семантике (словосочетания, синонимы), синтаксисе (грамматика на основе корпуса), прагматике (запись вариантов, анализ жанров, стилистики). Открытия в исследованиях на основе корпусов применяются в разных областях лингвистики и теоретических основах: лексикографии (корпусные словари), социолингвистике, прикладной лингвистике (изучение языка), диахронических исследованиях, дискурсном анализе, когнитивной лингвистике, а также в контрастивной и компаративной лингвистике и исследованиях перевода.
Таким образом, ресурсы и анализ корпусов текстов, а также методы исследования корпусной лексикографии являются перспективным направлением лингвистики. Материалы корпусов позволяют оценить весь спектр языковых явлений представленных текстов, выделить и исследовать особенности языка. Электронные корпуса являются принципиально новым источником, обеспечивающим автоматизированное изучение отдельных черт языка, обеспечивающим перекрестные исследования различных текстов и облегчающим поиск и выборку необходимых данных.
Список литературы
корпусный словарь лингвистика
1. Белоногов Г.Г. Системы фразеологического машинного перевода политематических текстов [Электронный ресурс]. URL: http://www.a-z.ru/person/belonogov/ (дата обращения: 06.01.2017).
2. Лемская В.М. Потенциал применения методов корпусной лингвистики в рамках дескриптивного подхода в исследовании чулымско-тюркского языка [Электронный ресурс]. URL: http://psibook.com/linguistics/potentsial-primeneniyametodov-korpusnoy-lingvistiki-v-ramkah-deskriptivnogo-podhoda-v-issledovanii-chulymsko-tyurkskogo-yazyka.html (дата обращения: 06.01.2017).
3. Селегей В. Электронные словари и компьютерная лексикография [Электронный ресурс]. URL: http://www.lingvoda.ru/transforum/articles/selegey_a1.asp (дата обращения: 06.01.2017).
4. Семенов А.Л. Современные информационные технологии и перевод. М.: Академия, 2008. 224 с.
5. American National Corpus [Электронный ресурс]. URL: http://www.americannationalcorpus.org/ (дата обращения: 06.01.2017).
6. British National Corpus (BYU-BNC) [Электронный ресурс]. URL: http://corpus.byu.edu/bnc/ (дата обращения: 06.01.2017).
7. Corpus of Contemporary American English [Электронный ресурс]. URL: http://corpus.byu.edu/coca/ (дата обращения: 06.01.2017).
8. McEnery T., Wilson A. Corpus Linguistics: An Introduction 2nd edition. Edinburg: Edinburg University press, 2001. 235 p.
9. Oxford English Corpus [Электронный ресурс]. URL: https://www.sketchengine.co.uk/oxford-english-corpus/ (дата обращения: 06.01.2017).
10. Oxford English Dictionary [Электронный ресурс]. URL: http://www.oed.com/ (дата обращения: 06.01.2017).
Размещено на Allbest.ru
...Подобные документы
Введение основных понятий корпусной лингвистики. Понятие учебного корпуса и лингвистической разметки. Обзор разработок мультимодальных корпусов и изучение их структуры. Создание русско-немецкого подкорпуса. Разметка текстов и аннотирование данных.
курсовая работа [2,0 M], добавлен 20.06.2014Социальные функции, значение и принципы классификации словарей современного английского языка. Виды специальных словарей: фразеологизмов, языка писателей, цитат. Понятие мифологем и их примеры. Формирование библейской лексикографии, ее основные тенденции.
реферат [33,0 K], добавлен 16.06.2013Толковые словари. Издания "Толкового словаря живого великорусского языка" В.И. Даля. Однотомный словарь русского языка. Системные словари. Cловарь русских синонимов. Cловари иностранных слов. Переводные словари. Электронные словари.
реферат [36,7 K], добавлен 29.01.2007Русская лексикография и составление словарей. Классификация словарей: этимологические, толковые, синонимические, фразеологические, орфографические и словари трудностей русского языка. Исследование известных словарных изданий. Издание словарей-библиотек.
дипломная работа [31,7 K], добавлен 07.05.2009Адресат переводных словарей. Развитие англо-русской лексикографии. Переводной словарь как словарь, представляющий планомерное сопоставление словарных составов двух и более языков. Основные способы семантизации в нем. Переводные фразеологические словари.
презентация [2,7 M], добавлен 22.11.2013Лексикография как научная дисциплина. Аспекты лексикографии. Термин "лексикография". Парономазия. Парономазию называют бинарной фигурой стилистики. Современные словари паронимов. Паронимия – частичное звуковое сходство слов при их семантическом различии.
реферат [21,8 K], добавлен 31.07.2007Основные тенденции в развитии лексикографии английского языка. Анализ британских, американских и отечественных словарей, особенностей их композиции и способов представления лексических единиц. Классификация, типы и структура словарей и словарных статей.
методичка [642,4 K], добавлен 26.04.2011Изучение предмета лексикографии или раздела языкознания, занимающегося теорией и практикой составления словарей. Проблема семантической структуры слова. Принципы словарного описания языка. Лексикографический параметр и пометы. Требования к толкованиям.
презентация [281,9 K], добавлен 17.03.2015Место лексикографии среди лингвистических дисциплин. Статус терминологической лексикографии, пути описания языка профессиональной коммуникации. Лексикографические термины как объект описания специальных словарей. Основные критерии отбора терминов.
курсовая работа [35,6 K], добавлен 30.10.2014История словарей, их функции. Сущность толкового и терминологического их видов. Систематизация неологизмов, иностранных слов, переводческих терминов, фразеологизмов. Анализ нового в русской лексике. Использование словарей для проверки орфографии.
презентация [581,0 K], добавлен 26.10.2014Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.
дипломная работа [95,5 K], добавлен 07.11.2013Назначение лингвистических и энциклопедических словарей русского языка. Толковые, орфографические, орфоэпические, исторические, этимологические, диалектные (областные), фразеологические и частотные словари. Словари иностранных слов, омонимов, синонимов.
реферат [14,6 K], добавлен 17.03.2014Рассмотрение положений лексикографии, функций словарей и проблемы их типологии. Референциальные, синонимические и описательные виды словарных дефиниций. Анализ способов лексикографического представления слов на примере многозначного существительного leg.
курсовая работа [52,4 K], добавлен 27.10.2011Демократизация общества как причина появления прикладной лингвистики. Возникновение и основные принципы правовой лингвистики, темы исследований и тенденции дисциплины. Сферы соприкосновения языка и права. Переводы юридических текстов и лексикографии.
реферат [22,2 K], добавлен 09.12.2010- Эвристическая ценность прикладного корпуса в работе переводчика: теоретико-практическое исследование
Определение и типологизация словарей, их роль в переводе. Предпосылки появления этих электронных средств их классификация. Прагматическая ценность электронных словарей в парадигме переводческой деятельности. Сопоставительный анализ переводных словарей.
курсовая работа [373,4 K], добавлен 26.06.2011 Понятие о синонимах. Функции, значение синонимов в языке. Группировка слов и словосочетаний, носящая системный характер. Выявление значения синонимических средств. Принципы составления синонимических словарей английского языка. Активность. Двуязычность.
научная работа [18,5 K], добавлен 25.02.2009Знакомство с процессом развития речи младших школьников. Характеристика основных лингвистических словарей русского языка. Нормированность речи как ее соответствие литературно-языковому идеалу. Анализ типов норм современного русского литературного языка.
дипломная работа [130,1 K], добавлен 11.02.2014Определение понятий литературного языка и нормы, выделение и характеристика основных этапов становления французской произносительной нормы. Описание основных орфоэпических словарей. Выявление общих черт современной кодифицированной произносительной нормы.
курсовая работа [28,6 K], добавлен 14.12.2020Рассмотрение особенностей изучения грамматики в современных условиях в средней школе. Анализ сущности информационных технологий, их роли в учебном процессе, влияния на мотивацию обучения. Применение Интернет-ресурсов на уроках английского языка.
дипломная работа [249,5 K], добавлен 26.04.2015Основные разновидностей словарей (орфографические, морфемные и словообразовательные, этимологические), их классификация по назначению и содержанию, состав. Краткая аннотация некоторых изданий, отличие от предыдущих изданий, дополнения и изменения.
доклад [51,2 K], добавлен 26.10.2010