Лексическое своеобразие предметной области "сфера безопасности" в аспекте русско-английского перевода

Анализ лексической специфики сферы "безопасность" и особенности перевода специфической лексики с русского на английский язык. Исследование разницы между терминами разных групп и классов в этих двух языках на основе атрибутивной классификации Ч. Хоккета.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 18.07.2020
Размер файла 460,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Лексическое своеобразие предметной области "сфера безопасности" в аспекте русско-английского перевода

Кудрявцева Агата Валентиновна

Аннотация

В данной работе исследуются лексическая специфика сферы «безопасность» и особенности перевода специфической лексики с русского на английский язык. В ходе исследования устанавливается наличие разницы между терминами разных групп и классов в этих двух языках на основе атрибутивной классификации Ч. Хоккета, частей речи опорных слов, именных и глагольных групп. Результатами исследования предполагаются подтверждение или опровержение разниц между терминологическими группами определенного признака в русском и английском на основе созданного русско-английского словаря однословных и многословных терминов по сфере безопасности. Полученный словарь может быть использован для консультирования при переводе текстов данной тематики на английский язык

Введение

лексический безопасность перевод

Работа посвящена исследованию лексической специфики текстов сферы безопасности и способов перевода специфической лексики на английский. Для достижения этих целей необходимо было выполнить следующие задачи:

1. создание коллекции текстов для анализа;

2. предобработка и лемматизация полученной коллекции;

3. извлечение ключевых лемм из коллекции предметной области «сфера безопасности»;

4. создание списка n-грамов из коллекции предметной области «сфера безопасности»;

5. ручная выборка однословных и многословных терминов из пунктов 3 и 4;

6. перевод выборки терминов;

7. анализ полученных английских терминологических соответствий.

Основные результаты работы таковы:

- создание терминологического словаря сферы безопасности и его перевод на английский язык;

- классификация русскоязычных и англоязычных терминов и анализ их количественного распределения по группам с рассмотрением возможных причин наблюдаемого распределения;

- проверка предположения о преобладании именных групп в терминах словаря и сравнение списка терминов в русском и английском тезаурусе.

Предполагается, что в составе русскоязычных и англоязычных однословных терминов будут преобладать существительные, и что в составе многословных терминов опорными словами чаще будут существительные, при этом доля именных групп будет различной в зависимости от языка тезауруса. Кроме того, возможно, между английскими и русскими терминами будет некоторая количественная разница в использовании левосторонних и правосторонних определений, а также именных групп.

Для формирования словника используется корпус специализированных текстов русского языка, которые являются общедоступными в сети Интернет.

Помимо собственно корпуса текстов по направлению «безопасность» в процессе выделения однословных и многословных терминов были задействованы тексты референтного корпуса. Референтный корпус (в применение к настоящей работе) -- это лемматизированная коллекция текстов русских локальных документов различающейся тематики и стиля. Он противопоставляется специализированному корпусу текстов, который имеет в себе коллекцию текстов по определенному параметру в зависимости от исследования (тема, стиль, жанр). Сбор материала для корпуса специализированных текстов выполнен с помощью программы BootCat (Baroni et al., 2004), а корпус референтных текстов формируется на базе оффлайн корпуса со снятой омонимией ГИКРЯ (Беликов, и др., 2012).

Целевой корпус создается из текстов, которые не повторяют друг друга, а их проверка осуществляется вручную и с помощью сравнения списка слов в AntConc (Anthony, 2019). Далее тексты лемматизируются и выявляются однословные и неоднословные термины с помощью функций Keyword List и N-Grams в AntConc. Полученный словник для тезауруса переводится с помощью сайтов-словарей контекстного перевода Reverso Context (Reverso-Softissimo, 1999) и Linguee (Frahling et al., 2013).

Результаты работы могут быть полезны и практически применимы людьми, которые занимаются профессиональным переводом текстов с русского на английский и с английского на русский в различных тематиках, связанных со сферой безопасности (в том числе промышленной), начиная от инструкций и рекомендаций и заканчивая нормативными документами.

Глава 1. Метод создания словника терминов и его анализ

1.1 Подготовка и формирование коллекции текстов предметной области «сфера безопасности»

На первом этапе работы формировалась коллекция текстов предметной области «сфера безопасности» с помощью программы BootCat (Baroni et al., 2004). Эта программа ведет поиск необходимых текстов по точному совпадению введенных запросов. Запросами могут служить как предложения, так и словосочетания. Для запросов был сформирован список слов и словосочетаний, который соответствует только сфере безопасности. Этот список формировался вручную на основе тех слов, которые были представлены в русскоязычном учебнике по безопасности жизнедеятельности (Гафнер, 2016) и в нормативных документах (Федеральный Центр Науки и Высоких Технологий, 2015). Данных терминов недостаточно, чтобы сформировать полноценный самостоятельный словарь для перевода, т.к. количество терминов ограничено содержанием учебников, но при этом их количества хватает, чтобы сделать поисковый список и использовать его как основу для поиска необходимых текстов.

Рабочий список терминов делится на несколько групп, содержащих от 1 до 10 терминов, для единичного поискового запроса. Далее каждый поисковый запрос ищет тексты предметной области «сфера безопасности» с помощью Google, отображает ссылки на готовые к скачиванию тексты. Ссылки не повторяются.

Проверка была проведена вручную, дополнительно был просмотрен список частотных слов с помощью инструмента Word List в программе AntConc (Anthony, 2019). Все тексты являются разными, программа не допускает повторного скачивания одного и того же текста.

В качестве результата работы программы был сформирован корпус текстов различных жанров (суммарно около 2 миллионов слов в 85 документах), начиная от учебной литературы и заканчивая нормативными документами и актами. Все они относятся к сфере безопасности.

1.2 Поиск и сбор однословных терминов предметной области

На втором этапе работы имеющиеся данные были подготовлены к поиску, сбору и анализу 1-словных терминов сферы безопасности. Ключевые слова из коллекции текстов предметной области «сфера безопасности» будут содержать в себе необходимые 1-словные термины. Для выделения ключевых слов в программе AntConc следовало собрать леммы из специализированного (или целевого) корпуса и референтного корпуса по отдельности.

Референтный корпус текстов ГИКРЯ (Беликов и др., 2012) с лемматизацией и снятой омонимией (около 2 миллионов слов) был взят с сайта ГИКРЯ (Беликов и др., 2012). Размер референтного корпуса не имеет значения, а вот его состав, наоборот, очень важен при выделении ключевых слов (Xiao и et al., 2005 pp. 62-82). При использовании разных жанрово-специфичных референтных корпусов получаются существенно различающиеся списки ключевых слов (Блинова, 2018 стр. 83-87). Соответственно, необходимо было найти тексты, которые являются наиболее нейтральными и не имеют специфической направленности.

Леммы из целевого корпусов текстов, предварительно собранного программой BootCat (Baroni et al., 2004), были извлечены с помощью программы MyStem (Сегалович и др., 2018). Одной из возможностей этой программы является лемматизация русскоязычных текстов. В программе Notepad++ (Ho, 2020) все текстовые файлы референтного и целевого корпусов были отредактированы, оставлены только леммы. Далее в программу AntConc (Anthony, 2019) были загружены очищенные списки лемм. Также был загружен и список стоп-слов для определения ключевых слов. Он был взят из НКРЯ (Аркадьев, и др., 2004) и позволил избавить список КС от служебных слов, которые всегда имеют большую частоту и занимают первые места в частотных списках.

Для отсечения терминов из списка КС было определено пороговое значение «индекса ключёвости» (keyness coefficient) - 3.84. Такое пороговое значение предлагается Т. Мак Энери и его соавторами в (McEnery et al., 2001 pp. 84-85) как показательное, ср.: «чем больше разница между ожидаемыми частотами, тем более вероятно, что на наблюдаемые частоты влияет что-то иное, чем случайность» Оригинальная цитата из (McEnery and Wilson 2001: 84-85): «…the greater the difference between the observed frequencies and the expected frequencies, the more likely it is that the observed frequencies are being influenced by something other than chance».. В результате этого этапа работы в целевом корпусе был составлен список ключевых слов (Keyword list), которые являются употребительными терминами.

1.3 Поиск и сбор неоднословных терминов предметной области

Для третьего этапа подбора терминов для словаря было необходимо вернуться к корпусу специальных текстов, в котором не была проведена лемматизация. Эта версия целевого корпуса послужила текстовой основой для выделения n-грамов по списку ключевых слов, однословных терминов, полученных на предыдущем этапе (ср. в подпункт 1.2 Главы 1).

В разделе Clusters\N-Grams программы AntConc был просмотрен список самых встречаемых n-грамов размером от 2 до 4 слов. Во время выделения неоднословных терминов через вкладку Clusters\N-Grams выяснилось, что при n = 4 или n > 4 полученные n-грамы повторяют уже имеющиеся 2-грамы и 3-грамы, не внося больших изменений в списки. Ранг от 1 до 30 самых частотных n-грамов заняли биграмы и триграмы, поэтому дальнейшее составление словаря неоднословных терминов было основано на этих границах, и в итоге для словника были оставлены однословные термины и термины из двух и трех слов.

Выборка неоднословных терминов в n-грамах ограничивалась также соответствием тематики сферы безопасности и наибольшей частотой. При создании словника 1-словных терминов можно было практически полностью положиться на результаты работы программы AntConc, поскольку тематические термины выбирались ею достаточно точно, с использованием списка, исключающие стоп-слова, которые мешали бы качественному выделению терминов. Но при сборе списка n-грамов как основы для словаря неоднословных терминов возникали проблемы с частотностью служебных слов, которые невозможно было бы удалить, не изменив структуры текста. Поэтому выборка n-грамов проводилась вручную, а ее термины были просмотрены в контексте на соответствие специализированной тематике. Вопрос о субъективности ручной выборки будет рассмотрен подробнее в разделе Заключение.

Кроме того, ручная выборка позволяет решить некоторые проблемы, возникающие при терминологической вариативности. Согласно Е. И. Большаковой (Большакова Е. И., 2008 стр. 174), «одно понятие может иметь несколько различных языковых форм выражения в специальном тексте, в соответствии с теми коммуникативными задачами, которые возникают при использовании этого понятия».

Научно-технические области, являющиеся фундаментальными и давно разрабатываемыми, в своих словарях содержат множество зафиксированных терминов с пояснениями или без. Их варьирование незначительно, и для обозначения одного понятия существует ограниченный круг синонимов, которые также отображаются в словарях. Новая терминология вводится в такие науки как авторская. Она, в свою очередь, очень схожа с терминологией новых и развивающихся научных областей, для которых еще нет устоявшихся словарей. Такие термины обладают изменчивой формой и значением (Большакова Е. И., 2008 стр. 174).

Именно они создают препятствия в ходе создания словаря с помощью автоматических исправлений (Большакова Е. И., 2008 стр. 174), ср.:

1. Флективные варианты (аварийная опасность - аварийной опасности). Они хорошо распознаются большинством программ автоматической обработки текста.

2. Графические варианты (бактериальное средство - БАКТЕРИАЛЬНОЕ СРЕДСТВО). Они также распознаются программами.

3. Орфографические варианты (fire-fighting - firefighting). Их возможно распознать только вручную, или поставив определенные дополнения к фильтрам поиска программ, но в AntConc или MyStem этого сделать нельзя, поэтому они тоже обрабатываются вручную.

4. Морфоварианты (специальный - специализированный). Также требуют ручной обработки, особенно в научно-технических текстах, где схожие морфоварианты могут иметь одинаковый смысл, а могут быть просто схожими вариантами с разными значениями.

5. Лексико-синтаксических варианты (химический метод - химический способ). Они различаются составом лексики и иногда синтаксическим строением, причем бывают довольно неоднородными. В эти варианты входят и «грамматические синонимы» (техносферная безопасность - безопасность техносферы).

6. Сокращения (чрезвычайная ситуация - ЧС).

Пункты 3-6 требуют этапа ручного отбора. По-видимому, при составлении двуязычного русско-английского словаря будет лучше, если в самом словаре будут отображены различные морфоварианты, лексико-синтаксические и сокращенные варианты терминов, что позволит человеку, использующий этот словарь, лучше понимать разницу в их значении и написании.

Глава 2. Перевод словаря терминов на английский язык

2.1 Машинный перевод и формирование словника терминов

Четвертым и последним этапом в создании двуязычного словаря терминов для подготовки исследования лексической специфики является перевод собранных однословных и неоднословных терминов на английский язык. Для этого были задействованы сайты контекстных словарей и переводов Reverso Context (Reverso-Softissimo, 1999) или Linguee (Frahling et al., 2013), а также онлайн-словарь Multitran (Поминов, 2003). Сначала полученный русскоязычный словарь проходил процедуру машинного перевода на сайте Reverso Context.

Машинный перевод (machine translation, MT) -- это использование компьютерных программ для создания качественного идиоматического перевода между любыми парами естественных языков (Bird S., 2009) рационалистическим и эмпирическим методологиями. Существуют два подхода, на которых основывается машинный перевод. Первый из них - перевод на основе правил (rule-based machine translation, RBMT). Это типичный рационалистический метод, в который входят системы машинного перевода, основанные на лингвистической информации в качестве источника знаний. Метод RBMT переводит более точно, пытаясь передать каждую часть введенного текста. Но в нем существуют лексические ограничения при переводе и анализе ошибочных предложений.

Статистический машинный перевод (statistical-based machine translation, SMT), корпусный машинный перевод (corpus-based machine translation) и машинный перевод на основе примеров (example-based machine translation, EBMT) представляют собой эмпирический метод. Метод SMT считается более надежным, поскольку обеспечивает более свободный перевод благодаря внедренным языковым моделям и лучшему лексическому выбору (обычно при анализе двуязычных корпусов текста) (Xuan, et al., 2012 pp. 3017-3022).

Тем не менее, SMT и EBMT считаются нестабильными, а CMT - недостаточно всеобъемлющим для качественного перевода текстов, поэтому эти методы сталкиваются с трудностями при удовлетворении требований лингвистических знаний, таких, как морфология, синтаксические функции и порядок слов, которые приводят к потере качества перевода (Vilar D., 2006). Следовательно, каждый метод имеет свои преимущества, но существуют и ограничения. Поэтому современные разработчики систем машинного перевода создают совмещенные правила перевода, используя гибридный машинный перевод.

Гибридный машинный перевод (hybrid machine translation, HMT) объединяет сильные стороны рационалистического и эмпирического методов. Основным для HMT является интеграция нескольких методов машинного перевода. HMT объединяет все доступные методы машинного перевода, применяя их преимущества, чтобы улучшить качество продукции. HMT также может быть построен на основе RBMT с различными дополнениями из других методов. Процесс перевода завершается соединением с SMT или EBMT, который используется для решения проблем с определенными деталями текста. Согласно существующим требованиям, наиболее популярные комбинации включают «основанный на правилах MT и MT на основе статистики», «основанный на правилах MT и MT на основе примеров», а также множественные комбинации (т. е. объединение функций RBMT, SMT и EBMT или CMT) (Xuan et al., 2012 pp. 3017-3022).

Если говорить конкретно о работе с машинным переводом сайта Reverso Context, то там представлен как раз гибридный метод перевода, совмещающий в себе перевод на основе правил (RBMT), перевод на основе статистики (SMT) и перевод на основе многоязычных корпусов текста (CMT), поскольку изначально словарь этого сайта был контекстным, и недавнее внедрение переводческой системы на сайт использовало этот ресурс как дополнение к двум основным (RBMT и SMT соответственно).

В ходе работы сгенерированные переводы терминов далее проверялись вручную путем сравнения термина, данного сайтом машинного перевода, с другими переводами на сайтах Linguee (Frahling et al., 2013) и Multitran (Поминов, 2003). Если переводы одного и того же термина на разных сайтах совпадали, то термин на английском оставался без изменений (аварийная опасность - hazard). Если же термин, созданный с помощью машинного перевода, имел один вариант, а сайты-словари предлагали одинаковый, но другой вариант, то предпочтение отдавалось второму варианту перевода (чрезвычайная ситуация - emergency или emergency situation). Если же перевод термина на всех трех ресурсах различался, то предпочтение отдавалось одному из вариантов, у которого было большее количество подходящих примеров контекстного употребления (безопасность жизнедеятельности - health and wellness или health and safety или life protection).

2.2 Стандартные параметры переводческих соответствий и ручной перевод

Учёт стандартных параметров переводческих соответствий может быть полезен при качественном ручном переводе терминов, если у терминов отсутствуют переводные эквиваленты. Согласно В. Н. Комиссарову, «единица переводимого языка, регулярно используемая для перевода данной единицы исходного языка (ИЯ), называется переводческим соответствием этой последней» (Комиссаров, 1990 стр. 173). В качестве переводческого соответствия в языке перевода должна фигурировать единица, совпадающая по уровню с единицей исходного языка, хотя могут быть и исключения.

Если мы говорим про термины, то иногда можно наблюдать ситуацию, когда однословный термин переводится как многословный, т. е. состоит не из одиночного слова определенной части речи, а заменяется словосочетанием, единицей другого уровня (огнетушитель -- fire extinguisher). И наоборот, бывает, что словосочетание переводится однословным термином (зарядное устройство -- charger).

Также стоит заметить, что терминологии присущи так называемые единичные соответствия. «Единичные соответствия - это наиболее устойчивый постоянный способ перевода данной единицы ИЯ, используемый во всех (или почти во всех) случаях ее появления в оригинале и в этом смысле относительно независимый от контекста» (Комиссаров, 1990 стр. 173). Являясь постоянным эквивалентом переводимой единицы, единичное соответствие наиболее полно воспроизводит ее значение.

Также бывают ситуации, когда у единицы исходного языка (здесь - термина) нет эквивалента. Такие единицы называются безэквивалентными, и они часто оказываются неологизмами или особо специфичной малоупотребимой лексикой, для перевода которой приходится использовать окказиональные соответствия. Окказиональные соответствия могут совпадать с единицей исходного языка не полностью, а лишь частично, и считаются подходящими только в данном контексте. По теории перевода В. Н. Комиссарова ниже будут рассмотрены следующие 5 типов окказиональных соответствий.

1. «Соответствия-заимствования», которые копируют языке перевода форму слова исходного языка с помощью транскрибирования и/или транслитерации (aerosol - аэрозоль). Иногда такие заимствования остаются в принимающем языке в качестве регулярных.

2. «Соответствия-кальки», которые репрезентируют слово или словосочетание согласно его морфемному составу. Такие окказиональные соответствия быстро переходят в разряд регулярных соответствий, а затем могут и вовсе использоваться на постоянной основе (earthquake - землетрясение).

«Соответствия-аналоги», в отличие от предыдущих двух типов, используют существующие в языке слова, которые для переводимого языка должны иметь ближайшее значение (обезболивающее средство или средство от боли - pain reliever, буквально - «успокоитель боли» или «избавитель от боли»).

«Соответствия - лексические замены» передают значение единицы в контексте, используя один из типов переводческих трансформаций, о которых подробнее будет написано ниже. В отличие от «соответствий-аналогов», окказиональное соответствие преобразует семантику единицы переводимого языка, а не подбирает ближайшее по значению существующее в переводимом языке слово (<пострадавший находится> в сознании - <victim is> conscious).

«Описание» как окказиональное соответствие используется тогда, когда ни один из предыдущих 4 типов соответствий не способен точно перевести единицу исходного языка в единицу переводимого языка одним словом или словосочетанием, и представляет из себя подробное определение, например, термина: МЧС или Министерство по Чрезвычайным Ситуациям - Ministry of the Russian Federation for Civil Defense, Emergency Management and Natural Disasters Response. Иногда описание дается как дополнение к одному из предыдущих соответствий, если оно может быть не совсем ясным для читающих перевод (МЧС - EMERCOM, Ministry of the Russian Federation for Civil Defense, Emergency Management and Natural Disasters Response).

Преобразования, которые осуществляют переход от оригинальных единиц к переводческим единицам, как показано в пункте 4, называются переводческими трансформациями. Если рассматривать процесс трансформации через определения знака Л. Ельмслева и Ф. д. Соссюра, то каждая языковая единица является двусторонним знаком: имеет план содержания и план выражения. Тогда и трансформации будут подвергаться и форма знака (графическая, фонетическая), или означаемое, и его план содержания, или означающее (носитель смысла). Далее будут рассмотрены различные переводческие трансформаций, к которым переводчик обратится, если в процессе ручного перевода обнаружит, что у искомой единицы нет ни словарного соответствия, ни возможности создать или применить контекстуальное заимствование, аналог, кальку или описание.

Переводческие трансформации можно разделить на лексические, грамматические, лексико-грамматические. При работе с терминологическим словарем и его переводом могут быть необходимы только те трансформации, которые можно реализовать для таких языковых единиц, как слово и словосочетание. Ниже представлены наиболее частотные трансформаций для терминологических языковых единиц по В. Н. Комиссарову (Комиссаров, 1990).

К основным видам лексических трансформаций, применимых при переводе терминологии, относятся:

1. переводческое транскрибирование и транслитерация;

2. калькирование;

3. лексико-семантические замены (конкретизация, генерализация).

Основным видом грамматических трансформаций в рамках терминов переводимого языка можно считать грамматические замены (формы слова, части речи).

Совмещенными лексико-грамматическими трансформациями для перевода одного слова или словосочетания можно назвать экспликацию (описательный перевод).

Рассмотрим подробнее некоторые способы переводческих трансформаций с примерами, которые образуют соответствия и о которых не говорилось ранее.

Под «конкретизацией» В.Н. Комиссаров подразумевает замену слова или словосочетания исходного языка на более узкое, конкретизированное значение в переводимом языке: контроль наличия СИЗ - control of availability of PPE. Здесь «наличие» переводится как «availability», что подразумевает «доступность». Т. е. «СИЗ» (средство индивидуальной защиты) должно быть не просто в наличии на определенном месте (этого недостаточно), но и доступным для использования. Эта конкретизация при переводе на английский обусловлена рамками специфики научно-технической сферы, где каждое слово или предложение должно быть четко, ясно и понятно (Комиссаров, 1990 стр. 129).

«Генерализация» -- это процесс противоположный конкретизации, т. е. замена исходной языковой единицы на ту, что имеет более широкое значение (агрегат - machine). Использование генерализации редко в специфичной сфере, однако позволяет переводчику избежать лишней конкретизации там, где в ней нет необходимости.

«Грамматическая замена» -- это метод преобразования грамматической единицы из исходного языка в переводимый язык путем замены изменения грамматического значения словоформы или части речи (окружающий [прилагательное] нас мир - world around [предлог] us).

Таким образом, представленные виды эквивалентов и окказиональных соответствий, трансформаций могут быть использованы при ручном переводе единиц в словаре при условии, что для них еще нет эквивалентов или постоянных (регулярных) принятых переводческих единиц.

2.3 Классификация многословных научно-технических терминов

Поскольку научно-технические термины состоят в основном из единичных слов или словосочетаний, стоит рассмотреть подробнее структуру словосочетаний для того, чтобы узнать количественное распределение многословных терминов и найти пояснение к нему. Классификация научно-технических терминов позволит выявить часто используемые модели структур при переводе терминов, которые, возможно, могут быть более удобными для употребления, чем другие. Также предполагается, что распределение по классификации в английском и русском языках будет различной.

Согласно структуралистской теории категоризации словосочетаний Ч. Хоккета словосочетание может иметь одно ядро (или центр) с разным положением атрибутов (Hockett, 1958 стр. 186). В именной группе терминологического словосочетания центром будет существительное. В глагольной группе терминологического словосочетания в роли ядра будет выступать глагол. Другие группы в терминологическом словаре использоваться не могут, поскольку не несут в себе дефинитной функции - основополагающей в терминологии.

В английском языке достаточно большое количество разных вариантов атрибутивных конструкций, далее будут представлены их примеры с разделением на виды:

1. Атрибут или атрибуты находятся перед ядром словосочетания, т. е. наблюдается левостороннее положение определений в словосочетаниях (аварийная ситуация, emergency situation).

2. Атрибут или атрибуты находятся после ядра словосочетания, т. е. наблюдается правостороннее положение определений в словосочетаниях (зона временного отселения, zone of temporary elimination).

3. Атрибуты находятся вокруг ядра (vital activity of the population) <activity - ядро, все остальное - атрибуты>.

4. Атрибут(-ы) окружен(-ы) ядром (do not combust) <do и combust - ядра, not - атрибут>.

В концепции Ч. Хоккета словосочетание следует представлять не простой именной или глагольной группой, а как «более “мелкую” синтаксическая конструкцию, образованную на основе соединения знаменательных слов с помощью отношения синтаксического подчинения» (Предложение, электронный ресурс «Энциклопедия Кругосвет») (Добровольский, 2000). Однако в рамках данного исследования терминологии в качестве словосочетаний рассматриваются именные группы и глагольные группы, поэтому атрибуты, окруженные ядром, не рассматривались. Собранный и переведенный словарь будет изучен только в применение к первым трём видам классов Ч. Хоккета. Кроме того, для сравнения распределения терминов по схеме Ч. Хоккета вышеприведённая классификация будет применена также и к русскому материалу, поскольку это необходимо для сравнения русскоязычного и англоязычного тезауруса.

Глава 3. Результаты исследования создания двуязычного словаря терминов

3.1 Количественное распределение терминов по классам Ч. Хоккета

Рассмотрим количественное распределение собранных терминов по классам, представленным в предыдущей главе, в двух таблицах ниже.

Таблица 1. Количественное распределение терминов по классификации Ч. Хоккета в русском языке

Атрибуты перед ядром словосочетания

Атрибуты после ядра словосочетания

Атрибуты вокруг ядра словосочетания

Количество примеров

294

222

0

Таблица 2. Количественное распределение терминов по классификации Ч. Хоккета в английском языке

Атрибуты перед ядром словосочетания

Атрибуты после ядра словосочетания

Атрибуты вокруг ядра словосочетания

Количество примеров

377

117

6

Для предметного рассмотрения такого распределения была выполнена оценка разности выборочных долей по критерию Стьюдента. Анализ положения атрибутов не включал класс «атрибуты вокруг словосочетания», поскольку для анализа по критерию Стьюдента количество наблюдений должно быть как минимум 30 или иметь нормальное распределение (Плохинский, 1980 стр. 19), а в этом классе в русском языке количество примеров в выборке равно 0, а в английском языке равно 6. Поэтому дальнейшему анализу подлежали только первых два класса в английском и русском языке: «атрибуты перед ядром словосочетания» и «атрибуты после ядра словосочетания», а классы «атрибуты окружены ядром» и «атрибуты окружают ядро» сравнены не были. Далее проанализированы следующие распределения терминов:

1. в рамках английского языка между классами «атрибуты перед ядром» и «атрибуты после ядра»;

2. в рамках русского языка между классами «атрибуты перед ядром» и «атрибуты после ядра»;

Кроме того, для каждого класса выполнено сравнение долей определённых терминов в русском и английском по схеме:

1) «атрибуты перед ядром» в английском и русском;

2) «атрибуты после ядра» в английском и русском.

Для классов «атрибуты перед ядром» и «атрибуты после ядра» было выявлено следующее распределение:

Диаграмма 1. Распределение количества примеров в русском языке

В русском языке в собранном тезаурусе собрано 57% примеров с атрибутами, которые находились перед ядром, тогда как доля атрибутов с положением «после ядра» составила 43%, что указывает на преобладание левостороннего положения определений в терминологии. Возможно, при большей по количеству примеров выборки будут отображены другие положения атрибутов, указанные в классификации Ч. Хоккета, но преимущественное положение все же отдается классам «атрибуты перед ядром» и «атрибуты после ядра».

Диаграмма 2. Распределение количества примеров в английском языке

В английском языке в собранном тезаурусе обнаружилось 75% примеров с атрибутами, которые находились перед ядром, тогда как доля атрибутов с положением «после ядра» составила 23%, что указывает на преобладание левостороннего положения определений в терминологии. Кроме того, в отличие от русскоязычного тезауруса, в англоязычном тезаурусе были представлены термины с положением атрибутов вокруг ядра (2%). И, аналогично русскому тезаурусу, значительное преимущество будет отдано тем же классам, которые имеют положение перед или после ядра.

По критерию Стьюдента были сравнены каждое положение атрибутов в рамках двух языков. Формула оценки разности выборочных долей по критерию Стьюдента представлена на схеме ниже (Плохинский, 1980 стр. 181, 248).

,

где p1, p2 - сравниваемые доли,

,

где - объем группы, - число объектов с признаком,

- квадраты ошибок долей

tst - стандартные значения критерия Стьюдента для числа степеней свободы () и трех порогов вероятности безошибочных прогнозов: 0.95; 0.99; 0.999.

Рассмотрим далее конкретное условие для сравнения первого класса - «атрибуты перед ядром»:

1. Объем группы примеров в английском языке - 500 терминов, в русском - 516 (n1 = 500, n2 = 516).

2. Число объектов из объема выборки в английском языке - 377 терминов (75%), в русском - 294 (57%) (A1 = 377, A2 = 294).

Результаты расчетов показывают, что разность достоверна с высокой вероятностью - 99.9%, поскольку полученный критерий td = 6.4, а при td > 3.3 вероятность становится высокой (0.999). Получается, что английскому языку более свойственны термины с атрибутами перед ядром, чем русскому языку, и как следствие, левостороннее положение определений.

Теперь рассмотрим сравнение другого класса - «атрибуты после ядра».

1. Объем группы примеров в английском языке - 500 терминов, в русском - 516 (n1 = 500, n2 = 516).

2. Число объектов из объема выборки в английском языке - 117 терминов (23%), в русском - 222 (43%) (A1 = 117, A2 = 222).

Результаты вторых расчетов показывают, что разность также достоверна с высокой вероятностью - 99.9%, поскольку полученный критерий td = 6.7, а при td > 3.3 вероятность становится высокой (0.999). Получается, что русскому языку более свойственны термины с атрибутами после ядра, чем английскому языку, и как следствие, правостороннее положение определений.

3.2 Количественное распределение терминов по частям речи опорных слов

Аналогично пункту 3.1 «Количественное распределение терминов по классам» рассмотрим распределение терминов на основе частей речи опорного слова с использованием оценки разности выборочных долей критерия Стьюдента и формуле, указанной ранее.

В Таблице 3 ниже указаны пункты сравнения частей речи опорных слов однословных и многословных терминов, но некоторые из них не будут изучены потому, что обладают слишком малым количеством примеров для оценки разности выборочных долей. Например, к ним относятся в русском языке двухсловный термин с опорным словом - прилагательным и глаголом, а также трехсловный термин с опорным словом - прилагательным и глаголом. А в английском языке к ним относятся двухсловный термин с опорным словом в виде прилагательного и трехсловный термин с опорным словом в виде прилагательного и глагола.

Таблица 3. Распределение терминов на основе частей речи опорных слов в русском языке

Часть речи

Тип термина

Существительное

Прилагательное

Глагол

Итого

1-слов.

412

206

183

801

2-слов.

348

5

7

360

3+-слов.

95

0

11

106

Таблица 4. Распределение терминов на основе частей речи опорных слов в английском языке

Часть речи

Тип термина

Существительное

Прилагательное

Глагол

Итого

1-слов.

430

167

124

721

2-слов.

358

3

40

401

3+-слов.

130

0

17

147

На первом этапе рассматриваются распределения однословных терминов, которые одновременно являются опорными словами. Объем группы примеров в русском языке - 801 терминов, в английском - 721 (n1 = 801 n2 = 721).

1. Для анализа существительных число объектов из объема выборки в русском языке - 412 терминов (51,4%), в английском - 430 (59,6%) (A1 = 412, A2 = 430).

2. Для анализа прилагательных число объектов из объема выборки в русском языке - 206 терминов (26%), в английском - 167 (23%) (A1 = 206, A2 = 167).

3. Для анализа глаголов число объектов из объема выборки в русском языке - 183 термина (23%), в английском 124 (17%) (A1 = 183, A2 = 124).

В результате подсчетов оказывается, что разность достоверна с вероятностью 95% между однословными терминами-существительными в русском и английском (td =3.2, td > tst при tst = 2) и однословными терминами-глаголами в русском и английском языках (td =2.8, td > tst при tst = 2). Получается, что английскому языку более свойственно частое употребление однословных терминов-существительных, чем русскому, а русскому более свойственно употребление однословных терминов-глаголов, чем английскому.

Но при этом разность недостоверна между терминами-прилагательными в русском и английском языке (td =1.2, td > tst при tst = 2). Остается неизвестным, различаются ли доли между терминами-прилагательными в генеральных совокупностях этих языков, хотя и нельзя однозначно полагать, что различия между ними нет, поэтому требуется повторить исследование на выборках большего объема.

На втором этапе исследуются распределения двухсловных терминов, которые основаны на частях речи опорных слов. Объем группы примеров в русском языке - 360 терминов, в английском - 401 (n1 = 360, n2 = 401). Для анализа существительных число объектов из объема выборки в русском языке - 348 терминов (97%), в английском - 358 (89%) (A1 = 348, A2 = 358).

Результат расчетов показывает, что разность двухсловных терминов с опорным словом - существительным достоверна с вероятностью 99,9% (td =4.1, td > tst при tst = 3.3). И можно полагать, что русскому языку более свойственно употребление двухсловных терминов с опорным словом в виде существительного, чем английскому.

На третьем этапе исследуются распределения трехсловных (и четверословных, которые могут быть отнесены как расширенные трехсловные) терминов, которые основаны на частях речи опорных слов. Объем группы примеров в русском языке - 106 терминов, в английском - 147 (n1 = 106, n2 = 147). Для анализа существительных число объектов из объема выборки в русском языке - 95 терминов (89%), в английском - 130 (88%) (A1 = 95, A2 = 130).

Результат расчетов показывает, что разность трехсловных терминов с опорным словом - существительным недостоверна (td =0.3, td > tst при tst = 2). Опять же, остается неизвестными, есть ли различия между долями существительных в качестве опорных слов в трехсловных терминах в генеральных совокупностях этих языков, хотя и нельзя однозначно полагать, что различия между ними нет, поэтому необходимо дополнительное исследование на выборках большего объема.

3.3 Вопрос о преобладании именных групп среди научно-технических терминов в русском и английском языках

Если посмотреть на распределение двухсловных терминов и трехсловных терминов по частям речи опорных слов, то можно заметить, что первое место по количеству примеров занимают термины с опорным словом в виде существительного. Тем не менее, была доказана статистическая значимость различий между количеством двухсловных терминов с опорным словом-существительным в русском и английском языке, тогда как значимость для трехсловных подтвердить не удалось.

Согласно Е. И. Большаковой, «наряду с однословными терминами (представленными существительными) наиболее распространенными (около 85% в изученных словарях) оказались многословные термины следующих образцов: A+N (когерентное рассеяние), N+Ngen (сила натяжения), A+A+N (двойной электрический слой), A+N+Ngen (физические свойства поверхностей), N+Agen+Ngen (пакет прикладных программ), N+Ngen+Ngen (нарушение целостности данных), где A - прилагательное, N - существительное, gen - родительный падеж» (Большакова Е. И., 2008 стр. 176). Эти 85% были получены на основе списка русскоязычных терминов; все они являются именными группами. Чтобы узнать, есть ли существенная разница между многословными терминами как именными группами в русском и английском языках, был проведен анализ данных, приведённых в Таблице 5.

Таблица 5. Распределение именных групп в русском и английском языке

Язык Тип группы

Русский

Английский

Именные группы

443

488

Объем всей группы

466

548

Объем группы примеров в русском языке - 466 терминов, в английском - 548 (n1 = 466, n2 = 548). Для анализа именных групп число объектов из объема выборки в русском языке - 443 терминов, в английском - 548 (A1 = 443, A2 = 488). Это 95% в русском языке и 89% в английском языке.

Результат расчетов показывает, что разность именных групп - терминов достоверна с вероятностью 99,9% (td =3.5, td > tst при tst = 3.3). Таким образом, результат показывает, что в русском языке термины - именные группы чаще используются, чем в английском.

Заключение

В результате исследования лексической специфики предметной области «сфера безопасности» и способов перевода специфической лексики создан и переведен на английский язык тезаурус, состоящий из однословных, двухсловных и трехсловных терминов. Перевод на английский осуществлялся на основе программы гибридного машинного перевода, а затем проходил ручную проверку, в ходе которой неправильно переведенные или непереведенные единицы переводились с использованием знаний о переводческих соответствиях, представленных в работе В. Н. Комиссарова (Комиссаров, 1990 стр. 172-186).

Субъективность ручного составления онтологии не позволяет создать «золотой стандарт» оценки полученных результатов (Gelbukh, 2010 стр. 86), а полностью автоматизировать процесс пока что не является возможным из-за терминологической вариативности (Большакова Е. И., 2008 стр. 174) и ограниченного объема двуязычных корпусов (Xuan et al., 2012). Также существует ISO (ИСО), международная организация по стандартизации, которая содействует внедрению международных стандартов в мире для того, чтобы обеспечить международный обмен товарами и услугами, развивать сотрудничество в интеллектуальной, научно-технической и экономической областях (Терминология, электронная публикация «Энциклопедия Кругосвет»). Официальными языками организации являются английский, французский и русский. ИСО (Добровольский, 2000) предоставляет собственный словарь перевода терминов, который ограничен только областью «пожарная безопасность», что помогает в проверке имеющихся терминов, но не покрывает полностью необходимость иметь словарь такого направления.

Рассмотрим некоторые полученные результаты для определения однословных и неоднословных терминов ниже. Максимальная ключёвость в лемматизированном списке слов -- 6766,01 для 3653 ключевых слов, максимальная частота среди которых у слова работа, 8406. При этом ключёвость этого слова ниже - 3861,51 и занимает это слово 8 место в списке. На фоне референтного корпуса у слова работа меньшая ключевая нагрузка для специализированного корпуса. Как однословный термин слово работа выделить сложно, у него очень много сфер применения, оно не ограничивается только лишь сферой безопасности. Но в качестве неоднословного термина, например, противопожарные работы, это слово является частью сферы безопасности и логично его добавить в словник. Поэтому на этапе выделения неоднословных терминов в программе AntConc необходима ручная проверка, ориентированная на сбор высокочастотных n-грамов.

А. Ф. Гельбух в статье «Автоматический поиск и классификация однословных терминов» сопоставлял результаты составленного словаря программами до ручной проверки и после. Он сравнивает свой процент «качества» автоматизированного словаря с Х. Тинтин (Tingting He et al. “An Approach to Automatically Constructing Domain Ontology”, (Gelbukh, 2010)) и выявляет примерно схожий процент качества автоматического составления словаря (72%). Стоит сразу сказать, что он предоставил для сравнения не целый тезаурус, а материал, готовый для создания тезауруса, т. е. «проект онтологии предметной области, состоящий из однословных терминов, которые потом можно объединять в многословные» (Gelbukh, 2010). В случае проведенной работы в AntConc такая проверка результатов будет малоэффективна, потому что ручная проверка терминов требуется не на конечном этапе просмотра составленного словаря однословных и многословных терминов, а на этапе их подготовки. Субъективность ручной проверки существует, но в сфере «безопасность» (как и в составлении онтологий в целом) нет пока что объективных источников для проверки словаря, кроме ИСО, который бы показал иную стратегию составления словаря. Все же практическая применимость полученных результатов оказывается существеннее вопроса об объективности процесса составления. Поэтому ручная обработка остается необходимым этапом в работе над словарем, созданным автоматизированными методами.

В результате сравнения терминологических классов, основанных на атрибутивной классификации Ч. Хоккета, частях речи опорных слов, именных и глагольных группах, были получены следующие выводы.

1. В русскоязычном словаре 57% примеров относятся к классу с «атрибуты перед ядром», тогда как доля атрибутов с положением «после ядра» составила 43%, что показывает преобладание левостороннего положения определений в терминах русского словаря.

2. В англоязычном переводе тезауруса находятся 75% примеров с атрибутами «перед ядром», тогда как доля атрибутов с положением «после ядра» составила 23%, что показывает преобладание левостороннего положения определений в собранной английской терминологии.

3. Класс «атрибуты вокруг ядра» был представлен небольшим количеством примеров в английском языке, и это позволяет предположить, что при большей выборке этот класс станет весомее в сравнении с остальными.

4. С высокой вероятностью (99,9%) английскому языку более свойственны термины с атрибутами перед ядром, чем русскому языку, и как следствие, левостороннее положение определений.

5. Так же с высокой вероятностью (99,9%) русскому языку более свойственны термины с атрибутами после ядра, чем английскому языку, и как следствие, правостороннее положение определений.

6. Английскому языку более свойственно частое употребление однословных терминов-существительных, чем русскому, а русскому более свойственно употребление однословных терминов-глаголов, чем английскому с вероятностью 95%. Но при этом разность недостоверна между терминами-прилагательными в русском и английском языке, поэтому для сравнения терминов-прилагательных требуется дополнительное исследование на большей выборке.

7. Русскому языку более свойственно употребление двухсловных терминов с опорным словом в виде существительного, чем английскому (с вероятностью 99,9%).

8. Разность трехсловных терминов с опорным словом - существительным оказалась недостоверна. Опять же, как и в пункте 6 про однословные термины - прилагательные, остается неизвестными, есть ли различия между долями существительных в качестве опорных слов в трехсловных терминах в генеральных совокупностях этих языков, хотя и нельзя однозначно полагать, что различия между ними нет, поэтому необходимо дополнительное исследование на выборках большего объема.

9. Разность именных групп - терминов достоверна с вероятностью 99,9%, то есть в русском языке термины - именные группы чаще используются, чем в английском.

В целом полученные результаты исследования лексической специфики указанной сферы сделаны в рамках полученного терминологического русско-английского словаря предметной области «сфера безопасности», который представлен в Приложении А.

Список использованных источников

1. Anthony L. AntConc // A freeware corpus analysis toolkit for concordancing and text analysis. - Tokyo : 2019 г..

2. Baroni M. and Bernardini S. BootCaT [Online] // Bootstrapping corpora and terms from the web. Proceedings of LREC 2004. 12 24, 2019. - HYPERLINK "https://www.krugosvet.ru/enc/gumanitarnye_nauki/lingvistika/PREDLOZHENIE.html" https://bootcat.dipintra.it/?section=home .

3. Bird S. Klein E., Loper E. Natural language processing with python [Книга]. - Sebastopol : O'Reilly Media, Inc., 2009. - Т. 1.

4. Frahling G. and Fink L. Linguee [Online] // DeepL Translation. - DeepL, 12 04, 2013. - 04 18, 2020. - HYPERLINK "https://www.krugosvet.ru/enc/gumanitarnye_nauki/lingvistika/PREDLOZHENIE.html" https://www.linguee.ru/ .

5. Gelbukh A., G. Sidorov, E. Lavin-Villa & L. Chanona-Hernandez Automatic term extraction using log-likelihood based comparison with general reference corpus [Конференция] // In International conference on application of natural language to information systems. - Luxemburg : Springer, Berlin, Heidelberg, 2010. - Т. 1.

...

Подобные документы

  • Виды перевода и текст как объект перевода. Стилистическая принадлежность и особенности текстов сферы строительства. Значимость лексической эквивалентности при переводе текстов строительной тематики. Особенности перевода лексики сферы строительства.

    дипломная работа [85,9 K], добавлен 10.02.2012

  • Связь между типом звука и смыслом слова. Главные особенности перевода ономатопов. Сущность звукоподражания в английском языке. Сравнение текстов стихотворного произведения "How the water comes down at Lodore" английского оригинала и русского перевода.

    контрольная работа [28,0 K], добавлен 01.11.2013

  • Теоретические основы и главные особенности перевода научных текстов. Проблемы перевода с русского на английский язык. Словарь как вспомогательное средство переводчика. Лексикографический анализ словаря Н.К. Рябцевой "Научная речь на английском языке".

    курсовая работа [29,6 K], добавлен 06.02.2015

  • Определение специфики военных текстов как вида речевого произведения. Изучение терминологического вокабуляра и аббревиатур как базовых лексических особенностей текстов. Выявление характерных особенностей перевода лексики с английского языка на русский.

    дипломная работа [130,3 K], добавлен 14.09.2011

  • Неологизмы в английском языке и особенности их перевода (на материале экономической лексики). Национально-культурная специфика изучения новой лексики английского языка. Трудности перевода неологизмов в экономических текстах, лексические трансформации.

    дипломная работа [153,3 K], добавлен 12.09.2010

  • Язык и межкультурная коммуникация. Исследование проблемы перевода с английского на русский язык. Роль и значение перевода и степени теоретической подготовки переводчика. Особенности языка Вильяма Шекспира. Сравнительный анализ переводов монолога Гамлета.

    курсовая работа [40,3 K], добавлен 03.06.2014

  • Формальная и неформальная речь в литературном английском языке. Понятие сленга, особенности английского языка web-коммуникаций и проблема его перевода на русский язык. Понятие, виды и классификации перевода, особенности перевода сленга в Интернете.

    дипломная работа [84,1 K], добавлен 02.02.2014

  • Особенности перевода с английского на русский язык, и с русского на английский. Преобразование словосочетаний в прошлое совершенное время (Past Perfect). Перевод словосочетаний с согласованием времен. Подбор антонимов и необходимого по смыслу артикля.

    контрольная работа [11,4 K], добавлен 23.01.2010

  • Текст для чтения и перевода с английского на русский язык и вопросы к нему. Фразы для перевода на английский язык. Деловое письмо для перевода на русский язык. Текст для перевода по специальности "менеджмент" и англо-русский словарь по специальности.

    контрольная работа [24,5 K], добавлен 09.11.2008

  • Различные подходы к определению термина "политическая корректность" и систематизация понятия. Основные способы выражения политически корректной лексики в английском и русском языках. Анализ перевода политкорректной лексики в политических речах.

    дипломная работа [244,9 K], добавлен 21.07.2015

  • Общие закономерности перевода и делового английского языка в устной и письменной речи. Нюансы перевода деловой переписки. Грамматические особенности письменного английского языка делового общения. Существующие нюансы в употреблении английских слов.

    курсовая работа [49,9 K], добавлен 07.01.2014

  • Грамматические трансформации при переводе. Проблемы перевода форм Continuous, не имеющих аналогов в русском языке. Способы перевода, связанные с различиями в грамматике английского и русского языков. Конструкция "is going to" и передача будущего времени.

    курсовая работа [60,2 K], добавлен 21.04.2011

  • Особенности перевода юмора. Перевод безэквивалентной лексики. Средства выражения юмора в стихах для детей и некоторые аспекты их перевода. Основные трудности и приемы перевода культурных реалий в англоязычных анекдотах. Анализ английских лимериков.

    дипломная работа [80,7 K], добавлен 08.04.2014

  • Особенности художественного перевода и критерии его оценки. Понятие вторичной номинации, ее классификации и способы перевода. Специфика перевода драматургических текстов. Сопоставительный анализ перевода единиц вторичной номинаций в пьесах Чехова.

    курсовая работа [74,7 K], добавлен 22.08.2015

  • Лингвистические, лексические и грамматические особенности статей по дизайну и оформлению. Проблема перевода заголовков и перевод надписей на рисунках. Проблема перевода авторских неологизмов и профессиональной лексики. Прием антонимического перевода.

    дипломная работа [3,3 M], добавлен 14.11.2017

  • Грамматические средства английского и русского языков. Понятие перфектности и перфектов как временной категории. Способы передачи английского перфекта в художественной литературе. Особенности перевода глагольных форм с английского языка на русский.

    курсовая работа [45,8 K], добавлен 18.09.2015

  • Функционально-стилистическая характеристика газетно-информационного текста, особенности перевода и трудности в данной сфере. Анализ англо-русского и русско-английского перевода газетно-информационных текстов, выявление основных способов избежать ошибок.

    дипломная работа [132,8 K], добавлен 03.07.2015

  • Аббревиация как объект лингвистического исследования. Семантика и виды аббревиатур, способы их перевода с английского на русский язык. Функционально-семантический анализ перевода аббревиатур в английском языке на материале профессиональной литературы.

    дипломная работа [129,8 K], добавлен 03.11.2015

  • Звукоизобразительная система языка как предмет фоносемантического исследования. Фонетическая структура японской звукоизобразительной лексики, способы ее перевода на английский язык. Использование методов подбора эквивалента, переводческих трансформаций.

    дипломная работа [103,3 K], добавлен 22.02.2013

  • Изучение понятия и свойств терминов, определение их места в языковой системе. Исследование структурно-семантических характеристик и способов образования военной терминологии. Описание приемов перевода военной лексики на русский язык с английского.

    курсовая работа [54,7 K], добавлен 14.09.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.