Главная Коллекция "Revolution" Иностранные языки и языкознание О параллельных корпусах русских и китайских текстов

О параллельных корпусах русских и китайских текстов

Рассматриваются параллельный корпус переводов "Слова о полку Игореве", который содержит переводы данного памятника на разные языки, в том числе на китайский. русско-китайский параллельный корпус научных текстов гуманитарной области, созданный Тао Юанем.

Рубрика	Иностранные языки и языкознание
Вид	статья
Язык	русский
Дата добавления	30.01.2021
Размер файла	1,2 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

О параллельных корпусах русских и китайских текстовЧэнь Сяохуэй - канд. филол. наук, старший преподаватель, Народный университет Китая ().

Ольга Владимировна Кукушкина - докт. филол. наук, профессор филологического факультета МГУ имени М.В. Ломоносова (. Работа выполнена при финансовой поддержке Китайского Совета по Стипендиям (CSC) в рамках проекта по двустороннему обмену с МГУ имени М.В. Ломоносова. № 201706365021.

Чэнь Сяохуэй (КНР),

О.В. Кукушкина

Народный Университет Китая

100872, Пекин, Район Хайдянь, Проспект Чжунгуаньцунь, № 59

Федеральное государственное бюджетное образовательное учреждение высшего образования "Московский государственный университет имени М.В. Ломоносова" 119991, Москва, Ленинские горы, 1Аннотации

В данной статье мы попытаемся рассмотреть уже существующие параллельные корпуса русских и китайских текстов, чтобы не только познакомить с ними читателя, но и извлечь опыт из их разработки и показать перспективу и направление дальнейшей работы. Рассматриваются следующие корпуса: параллельный корпус переводов "Слова о полку Игореве", который содержит переводы данного памятника на разные языки, в том числе на китайский; параллельный русско-китайский корпус в составе Национального корпуса русского языка; полистилевой русско-китайский и китайско-русский параллельный корпус, создаваемый под руководством Цуй Вэя; русско-китайский параллельный корпус научных текстов гуманитарной области, создателем которого является китайский ученый Тао Юань; русско-китайский переводческий корпус, разработанный китайским ученым Лю Мяо и разделенный на три блока: подкорпус рассказов Чехова, китайско-русский подкорпус художественной литературы, подкорпус обучения русскому языку как иностранному; китайско-русский параллельный корпус официально-деловых текстов с дискурсивно-структурной разметкой, разработчиками которого являются М.Ю. Мухин и Ян И; китайско-русский параллельный корпус романа "Страна вина", созданный китайскими учеными Пяо Чжэхао, Ли Цинхуа и Ван Лися; параллельный корпус "Русские переводы трактата "Дао Дэ Цзин", разработанный авторами данной статьи и содержащий две версии: сокращенную (три перевода) и полную (21 перевод). Проведенный анализ показывает, что разработка и использование параллельных корпусов русских и китайских текстов находится пока на начальном этапе. Объем существующих корпусов пока еще очень мал, а их тематика недостаточно широка; специалистов, занимающихся разработкой корпусов, обработкой текстов и корпусно-ориентированным исследованием, не хватает. Однако большой исследовательский, обучающий и культурный эффект, который могут дать параллельные корпуса текстов, свидетельствует о том, что их создание - весьма важная задача, которую предстоит решить в ближайшем будущем. перевод памятник текст китайский

Ключевые слова: параллельный корпус; русский; китайский; разметка.

Chen Xiaohui, Olga V. Kukushkina

THE PARALLEL CORPORA OF RUSSIAN AND CHINESE TEXTS

Renmin University of China

No. 59 Zhongguancun Street, Haidian District, Beijing, 100872 Lomonosov Moscow State University 1 Leninskie Gory, Moscow, 119991

In this article we will try to consider the already existing parallel corpora of Russian and Chinese texts, not only in order to acquaint the reader with them, but also to learn from the experience of their development and to show the perspective and direction of further work. Particular attention is paid to the Parallel corpus of translations of " The Tale of Igor's Campaign", which contains translations of this ancient manuscript in different languages, including Chinese; the Parallel Russian-Chinese corpus within the National corpus of the Russian language; the Russian-Chinese and Chinese-Russian parallel corpus, the head of which is a Chinese scholar Cui Wei; the Russian-Chinese parallel Corpus of Humanities and Social Sciences academic texts the founder of which is a Chinese researcher Tao Yuan; the Russian-Chinese translation corpus, developed by the Chinese academic Liu Miao and divided into three blocks: the subcorpus of Chekhov's stories, the Chinese-Russian subcorpus of Literary, the subcorpus of teaching Russian as a foreign language; the Chinese-Russian parallel corpus of official texts with discursive-structural marking the developers of which are M. Yu. Mukhin and Yang I; the Chinese-Russian parallel corpus of the novel "Wine Country", created by the Chinese researchers Piao Zhehao, Li Qinghua and Wang Lixia.; the Chinese-Russian Parallel corpus of the Chinese classic text "Dao De Jing", developed by the authors of this article and containing two versions: the abbreviated (3 translations) and the complete (21 translations) one. As a summary, we have come to the conclusion that the development and use of the Russian-Chinese parallel corpus is still at an early stage. The volume of existing corpora is still very small, and their subjects are not wide enough; experts involved in the development of corpora, text tagging and corpus-oriented research are not numerous enough. We are faced with an urgent and important task.

Key words: parallel corpora; Russian; Chinese; tagging.

Прошло уже полвека с тех пор, когда в 1960-е годы в Брауновском Университете (США) был создан первый большой компьютерный корпус. За это время в полной мере осознана необходимость создания параллельных корпусов текстов, и это направление стало одним из интенсивно развивающихся направлений современной корпусной лингвистики. Важным фактором его развития стала практическая необходимость создания баз данных типа "Translation Memory" (память переводов), помогающих найти оптимальный вариант перевода. В отличие от одноязычного корпуса корпус параллельных текстов содержит оригинал на одном языке с его переводом (переводами) на другой язык (языки). Создание полноценных параллельных корпусов - задача трудоемкая и сложная, поскольку для хорошей сопоставимости текст оригинала и перевода должен быть "выровнен", т.е. разделен на фрагменты, имеющие одно и то же содержание.

В Китае были созданы десятки параллельных корпусов разных объемов, но в основном это были китайско-английские корпуса. В России также не уделялось должного внимания задаче создания русско-китайских корпусов. Однако в последнее время ситуация изменилась. Тем не менее, можно сказать, что работа над параллельным корпусом русских и китайских текстов только началась. С ее результатами как русские, так и китайские пользователи еще мало знакомы в силу их малой доступности и/или одноязычного интерфейса. В данной статье мы попытаемся рассмотреть уже существующие параллельные корпуса русских и китайских текстов, чтобы не только познакомить с ними читателя, но и извлечь опыт из их разработки и показать перспективу и направление дальнейшей работы.

1. Параллельный корпус переводов "Слова о полку Игореве"

Корпус позиционируется как электронный инструмент сравнительного изучения текстов. Он содержит переводы данного памятника на разные языки, в том числе на китайский. Он доступен в Интернете с февраля 2007 г.URL: http://nevmenandr.net/slovo/ (accessed: 26.01.2018) Корпус представляет собой организованный массив текстов, распределенных по трем категориям: 1) издания и реконструкции (11 документов); 2) переводы на современный русский язык (107 документов); 3) переводы на другие языки (113 документов на 43 языках, из которых первые пять мест по количеству занимают украинские переводы - 24, французские переводы - 9, белорусские переводы - 8, английские переводы - 7, польские переводы - 7). Китайский язык представлен переводом Вэй ХуаннуПо данным на сайте корпуса (http://nevmenandr.net/cgi-bin/trans.py?it=n8 (accessed: 26.01. 2018), включенный в корпус китайский перевод Вэй Хуану был издан в Харбине в 1991 г. Но проверка библиотечных данных на китайском языке показала, что перевод Вэй Хуанну издавался Издательством Народной литературы в Пекине в 1957, 1983, 1991, 2000 г., а в Харбине в 1991 г. Научно-исследовательский Институт лексикографии Хэйлунцзянского университета издал "для внутреннего распространения" перевод Ли Сииня. Этот же перевод был издан в 2003 г. Коммерческим Издательством (The Commercial Press) в Пекине. Мы частично сравнили переводы и пришли к предположению, что на сайте дан китайский перевод, автором которого является не Вэй Хунну, а Ли Сиинь..

Синхронизация текстов произведена, как отмечают создатели корпуса, на основе членения "Слова о полку Игореве", предложенного Р.О. Якобсоном. В соответствии с этим членением каждый текст разбит на 218 фрагментов ("звеньев") [Орехов, 2009]. Номер фрагмента служит основным входом в текст. Отметив нужные тексты и задав номер фрагмента, пользователь получает возможность построчно сравнивать разные реконструкции и переводы одного и того же фрагмента с оригиналом. Первым выдается древнерусский текст. Если пользователь не отметил ни одного текста, то на экран выводятся пять случайных переводовURL: http://nevmenandr.net/slovo/ (accessed: 26.01.2018).

Если пользователь выберет перевод первого издания "Слова" на современный русский язык и китайский перевод Вэй Хуанну, то на экране появится следующий результат (рис. 1):

Рис. 1

В корпусе реализованы два вида поиска: 1) лексико-грамматический поиск в переводах на современный русский язык (выделены следующие грамматические классы: сущ., прил., гл., числ., нареч., местоим.-нареч., местоим.-сущ., местоим.-прил., числ.-прил., предл., частица, союз, часть композита, сложного слова, междом.); 2) поиск точной формы во всех переводах. К сожалению, провести поиск единиц в китайском переводе у нас не получилось.

К числу нетривиальных функций можно отнести возможность "визуализации разницы" (рис. 1).

Предлагаемый набор функций позволяет проводить не только переводческий и сопоставительный анализ, но и решать задачи обучающего типа. На сайте данного корпуса содержится подробное описание проекта, к которому прилагается список переводов, которыми планируется пополнить корпус. Это 26 переводов на современный русский язык и 79 переводов на другие языки (первые три места по количеству занимают английские переводы - 12, немецкие переводы - 11, украинские переводы - 9). К сожалению, китайские переводы в список на пополнение не включены, а они имеются. Это, например, разные переводы Вэй Хуанну - они были изданы в 1957, 1983, 1991, 2000 г.г., а также переводы Ли Сииня - 1991, 2003 гг. (см. сноску 3).

2. Параллельный русско-китайский корпус в составе НКРЯ

На данный момент в Национальном корпусе русского языка (далее - НКРЯ) содержатся параллельные с русским корпуса для следующих языков: 1) английского; 2) белорусского; 3) болгарского; 4) бурятского; 5) испанского; 6) итальянского; 7) китайского; 8) латышского; 9) немецкого; 10) польского; 11) украинского; 12) французского; 13) шведского; 14) эстонского. В НКРЯ есть также многоязычный корпусURL: http://www.ruscorpora.ru/search-para-zh.html (accessed: 26.01.2018).

В рамках проекта ведется работа по развитию и пополнению параллельного корпуса русских и китайских текстов. С августа 2016 г. "открыт для доступа пилотный параллельный русско-китайский и китайско-русский корпус объемом 55 тысяч словоупотреблений, включающий 5 текстов"URL: http://www.ruscorpora.ru/index.html (accessed: 26.01.2018). Этот корпус отличается тем, что китайский материал здесь размечен информацией разного типа, что позволяет осуществлять поиск единиц по нескольким параметрам. Заявлена разметка следующих видов: семантическая (по китайско-английскому словарю); разметка грамматических показателей, а также фонетическая транскрипция иероглифов. Фонетическая и семантическая многозначность оставлена неснятой. В 2017 г. объем китайско-русского корпуса был существенно увеличен (до 180 тыс. слов). В настоящее время поиск в китайской части ведется по подкорпусу объемом 15 735 предложений, 279 478 слов. В составе корпуса 10 произведений-оригиналов (accessed: 26.01.2018): 1) Лу Синь "Побег на луну" (год издания: 1926); 2) Лу Синь "Моление о счастье" (1924); 3) Лу Синь "Записки сумасшедшего" (1918); 4) А.П. Чехов "Толстый и тонкий" (1883); 5) А.П. Чехов "Человек в футляре" (1898); 6) Максим Горький "Старуха Изергиль" (1895); 7) Ф.М. Достоевский "Идиот" (1868); 8) И.С. Тургенев "Первая любовь" (1860); 9) И.С. Тургенев "Муму" (1854); 10) Н.А. Островский "Как закалялась сталь" (1932).

В корпусе произведена синхронизация по предложениям, в результате на экран при поиске выводится следующая информация: предложение-оригинал на русском (ги), предложение-перевод на китайском (zh) (иероглифы) и предложение-перевод на китайском в виде транскрипции (zh_2). В китайском языке многие иероглифы имеют несколько разных произношений и соответственно значений. Но в корпусе многозначность не снята, и для одного иероглифа даются в транскрипции они все. Например, на рис. 2 представлено предложение, в котором для каждого из шести иероглифов 7, fP, ^, Ш, Ш, Л дано от двух до пяти произношений, отделенных знаком "/". Поскольку для китайского языка такое явление частотно, это существенно осложняет семантическую разметку китайских текстов в автоматическом режиме.

Рис. 2

К каждому фрагменту текста добавлены метаданные, что позволяет видеть, какому тексту принадлежит фрагмент. Размечены метаданными и тексты корпуса (рис. 3).

Информация, связанная с лексическими единицами, может быть получена с помощью всплывающих подсказок. Так, для русского слова в найденном примере доступна информация о его лемме, грамматике, семантике (рис. 4). При осуществлении лексикограмматического поиска пользователю предоставляется возможность искать отдельно по определенному набору грамматических и семантических признаков (рис. 5). Состав этих признаков, как можно видеть на рис. 6, достаточно широк. Возможен также поиск по дополнительным признакам (рис. 7). Если пользователь хочет посмотреть найденное слово в словарях, то можно в онлайн-режиме нажать "см. в словарях" и сразу перейти на сайт по адресу https:// dic.academic.ru/.

Рис. 3

Рис. 4

Рис. 5

В китайском языке лексическая единица может состоять из одного или двух, трех, четырех, пяти или большего числа иероглифов. Вопрос о границе китайских слов остается спорным и нерешенным, поэтому токенизация (разбиение китайского текста на слова) представляет собой особую трудность при создании параллельного корпуса. Так, например, на рис. 8 дана справка на сочетание из трех иероглифов: ЩЩ^. В данном контексте оно имеет значение `мальчишка'. Но первый и второй иероглифы в других контекстах могут иметь значение `мальчик', а последние два иероглифа могут выступать в значении `ребенок'.

Рис. 6

Рис. 7

Рис. 8

В данном корпусе проблема выделения слов и описания их значения решалась с помощью китайско-английского словаря, поэтому разбиение на лексические единицы в некоторых случаях произведено неточно. Это требует дальнейшего дополнительного контроля и ручной коррекции.

Описание значения дается на английском языке, что связано с тем, что семантическая квалификация производилась по китайско- английскому словарю. Как было сказано ранее, русские слова в корпусе удобно в онлайн-режиме искать в других словарях. Для выделенных китайских лексических единиц реализована возможность получить русские переводы, перейдя по ссылке на сайт https:// translate.yandex.ru.

Китайские лексические единицы сопровождаются полезной для обучения информацией. Так, для существительных в разделе "грамматические признаки" указана информация о вариантах счетных слов, которые могут использоваться с каждой из единиц (рис. 9).

Рис. 9

Реализована возможность искать единицы в грамматических контекстах определенного типа. Так, можно осуществлять поиск контекстов, содержащих конкретные служебные показатели: модальную частицу (7 [le]); перфектив (7 [le]); прогрессив (Щ [zhe]); прошедшее время (Й [guo]); каузатив ({7 [shi], ШШ [shide]; Щ [jiao], i7 [rang]); множественное число (]П [men]); оценка действия (Ш [de]); общий вопрос [ma]); вынесение объекта перед глаголом (Й [bв]); определение к существительному (Й [de]); определение к глаголу (ffi [de]); пассив (Ш [bиi]; вЧ [jiаo]; i± [rаng]); направительные морфемы (^ [lвi]; Ж [qщ]; й [jin]; Ж [chы]; Й [hui]; ± [shаng]; T [xiа]; Ы [guф]; Й [qп]; ЙЙ [shаnglвi]; ЖЖ [shаngqщ]; ТЖ [xiаlai]; ТЖ [xiаqщ]; й Ж [jinlвi]; йЖ [jinqщ]; ЖЖ [chыlвi]; ЖЖ [chыqщ]; 0Ж [huilai]; 0Ж [hulqu]; ЙЖ [guфlвi]; Ый[guфqu]; ^^[qпlai]). Поиск по семантическим признакам реализуется пока только в русских текстах.

Нужно отметить, что лексический поиск в китайских текстах возможен пока только по отдельному иероглифу. Поиск по комбинациям иероглифов, эквивалентным слову, еще не действует.

3. Полистилевой русско-китайский и китайско-русский параллельный корпус

Китайский ученый Цуй Вэй, сотрудник "Института иностранных языков НОАК", работает с коллегами над созданием переводческого параллельного корпуса русско-китайских и китайско-русских текстов, который должен включать подкорпуса: 1) подкорпус официально-деловых текстов; 2) подкорпус художественной литературы; 3) подкорпус новостных текстов; 4) подкорпус текстов военной тематики; 5) подкорпус текстов по экономике и торговле [Cui, Zhang, 2014: 84].

Пока создан лишь подкорпус, в который входят информационные материалы по военной тематике. Это (а) китайские оригиналы и их переводы на русский: "Национальная оборона КНР" (Белая книга - 2002, 2004, 2008, 2010, 2013 годов); "Контроль над вооружениями и разоружение" (Белая книга 2005 года); "Китайская оборона" (Пэн Гуанцянь, 2004); (б) русские оригиналы и их переводы на китайский: "Стратегия национальной безопасности Российской Федерации до 2020 года"; "Военная доктрина РФ"; "Вооруженные силы РФ" (исследовательские доклады, 2010). Объем этого подкорпуса составляет примерно 168 тыс. русских слов и 283 тыс. иероглифов. В подкорпус добавлены метаданные и проведена первичная морфологическая разметка (используются принципы НКРЯ).

Тексты-оригиналы и их переводы были выровнены по предложениям с помощью алгоритма длины G-Clen. Эксперимент, проведенный создателями корпуса, показал, что с помощью этого алгоритма автоматическое выравнивание оригиналов и их переводов (с русского на китайский, и наоборот) было осуществлено довольно качественно. Точность автоматического выравнивания для наиболее официальных и стандартных текстов составила свыше 95%.

Поскольку использовались переводы на русский, сделанные китайцами, создатели корпуса отмечают, что в дальнейшем планируется проверить их по НКРЯ и по Яндексу с целью обнаружения и сопоставления разных вариантов переводов терминов, исправления неточностей и определения лучшего переводного эквивалента. На основе корпуса уже проводится корпусно-ориентированное переводческое исследование. Так, были сопоставлены переводные соответствия некоторых военных терминов в этом корпусе, в НКРЯ и по Яндексу, на основе чего создатели корпуса попытались найти лучший вариант перевода. Анализировалась также проблема перевода на русский выражений с китайской спецификой, а также соответствие конструкций предложений в русском и китайском языках.

К сожалению, созданный корпус сохраняется пока в виде базы данных, и доступ к нему ограничен для обычного пользователя Интернета.

4. Русско-китайский параллельный корпус научных текстов гуманитарной области

Поскольку о разработке, создании и использовании данного корпуса создатели его уже написали около десяти статей и тезисов на русском, китайском и английском языках [Тао, 2014, 2015, 2016, 2017], мы опишем его кратко.

Данный тематический (специальный) корпус научных текстов гуманитарной области содержит две части: русско-китайский параллельный корпус (далее - ПК) и китайский корпус (далее - СК), сопоставимый по тематике. В последний входят оригиналы-тексты на ту же тематику, написанные китайскими учеными, которые одновременно являются и переводчиками текстов в ПК. ПК включает 14 монографий на русском языке (по I. политике и международным отношениям; II. лингвистике; III. литературоведению; IV. переводоведению) и их переводы на китайский. В СК входят 10 монографий на китайском языке из тех же предметных областей.

Корпус создан для исследования и обучения переводу. Входящие в него тексты могут служить образцами при написании курсовых, дипломных и научных работ. На основе данного корпуса можно провести исследование по универсальным принципам и языковым особенностям переводческой деятельности, которые выявляются при сопоставлении оригинала и перевода. При определении объема обработанного материала авторы использовали следующий подход: для русского материала считались словоупотребления, для китайского иероглифы. На начальном этапе были обработаны тексты в объеме пяти миллионов единиц (включая все три части: русский оригинал; его перевод на китайский; китайский оригинал).

Планируется пополнить корпус до 10 млн единиц и включить в него тексты по V. управлению; VI. истории; VII. культуре.

Корпус размечен метаданными (идентификатор текста, тип текста, автор, переводчик, год издания и год перевода, название монографии, язык и др.). Судя по рисункам, предложенным авторами в статье [Тао, Захаров, 2015: 23], китайская часть корпуса уже размечена морфологической информацией (текст разбит на лексические единицы и определены части речи). К сожалению, про теоретические принципы данной морфологической разметки создатели корпуса не упомянули. По их словам, морфологическая нормализация для русской части не выполняется.

Выравнивание текстов выполнялось автоматически с помощью программы-конкордансера ParaConc (точность выравнивания 60--70%) и затем корректировалось вручную.

Чтобы выполнить генерацию словника терминов, на первом шаге в ручном режиме были отобраны термины в оригиналах и переводах и "выровнены" в одном текстовом файле. На втором шаге этот выровненный файл конвертировался в базу данных, что позволило получить словник терминов по данному корпусу с возможностью поиска в этой базе. Для того чтобы обеспечить выдачу конкорданса для лексем, поиск осуществляется по словоформам на основе языка регулярных выражений (regular expressions) с возможностью находить все члены словоизменительной парадигмы, что равносильно поиску ключевых слов по леммам. Поиск словосочетаний на китайском языке тоже осуществляется с помощью регулярных выражений [там же: 24].

На данный момент уже создана платформа удаленного поиска через Интернет на основе СУБД MySQL и разработан сайт корпуса, через веб-интерфейс которого реализуется поиск по лексическим единицам с добавлением элементов метаданных [там же: 25]. К сожалению, указанный сайт пока не открывается.

Создатели корпуса собираются в дальнейшем приложить усилия для разработки дополнительных программ предварительной обработки и разметки текстов, программ, обеспечивающих автоматическую лемматизацию текстов русскоязычной части корпуса, автоматическое выявление терминологической лексики и более гибкое управление поиском и выдачей результатов. Иными словами, планируется дальнейшая работа по созданию эффективного корпус-менеджера.

На материале корпуса уже проведены некоторые исследования. Они касаются подбора отдельных переводных эквивалентов, перевода придаточных предложений с "чтобы", способов перевода (адаптации) на русский язык конструкций с предлогом ^ (dul) и др. [Тао, 2015, 2016, 2017].

Русско-китайский переводческий корпус

В Интернете представлен переводческий корпус русских и китайских текстов, в котором на сайте http://rucorpus.cn можно осуществлять поиск (рис. 10). Корпус разделен на три блока: подкорпус рассказов Чехова; китайско-русский подкорпус художественной литературы; подкорпус РКИ (доступ к последнему пока закрыт).

Рис. 10

В подкорпусе рассказов Чехова содержится семь рассказов ("Анна на шее", "Ванька", "Смерть чиновника", "Толстый и тонкий", "Хамелеон", "Человек в футляре", "Крыжовник"), повесть ("Палата № 6") и три варианта их перевода на китайский язык (переводчики: Жу Лун, 2000; Шэнь Няньдзюй, 2009; Фэн Цзя 2011Первое издание перевода Жу Лун вышло в свет в середине XX в.; первое издание перевода Шэнь Няньцзюй и Фэн Цзя вышло в свет в конце XX в.). Всего в корпусе Чехова насчитывается 7,006 предложений (количество слов неизвестно) и 776,441 иероглифов (дата обращения: 4 февраля 2018 г.) (рис. 11).

Рис. 11

В корпусе можно задать обычный и расширенный поиск. Разработка поисковой функции ориентирована на "Грамматический словарь русского языка" А.А. Зализняка. Исходя из потребности в исследовании и обучении переводу, в корпус добавили в ручном режиме три разметки: грамматическую (в оригинале), стилистическую (в оригинале и в переводе), переводческую (в переводе). При расширенном поиске можно выбрать один или больше вариантов переводов, можно осуществлять поиск по типам односоставных предложений: (определенно-личное, неопределенно-личное, обобщенно-личное, инфинитивное, назывное); по неспрягаемым формам глаголов (действительное причастие, страдательное причастие, деепричастие, инфинитив); по некоторым стилистическим приемам, представленным в оригинале (пословица, поговорка, идиома, фразеологизм, экспрессивный суффикс, обращение к лицу, метафора, метонимия), по стилистическим приемам в переводе (фразеологизм, состоящий из четырех иероглифов; слово, состоящее из антонимов-иероглифов; слово, состоящее из повторяющих иероглифов; слово-звукоподражание); по некоторым переводческим "приемам" (добавление, опущение, замена, членение предложений, объединение предложений).

Работа над корпусом велась следующим образом. На первом шаге производилась автоматическая обработка текстов; на втором - добавление в тексты разметки (вручную). Сначала с помощью программы разбиения китайского текста на слова NLPIR, разработанной доктором Чжан ХуапиномСайт о данной программе: URL: http://ictclas.nlpir.org/ (accessed: 26.01.2018)., создатели корпуса разбили все тексты переводов на слова и каждому слову присвоили маркированный код для дальнейшего анализа и обработки. Затем было сверено соответствие параграфов перевода с оригиналом, и каждому параграфу был присвоен ID-номер. На этой основе было произведено выравнивание предложений перевода с оригиналом и окончательная нумерация предложений. При наличии несоответствия разделения параграфов или предложений в переводе и оригинале на основе оригинала исправлялся перевод. Затем вручную была произведена грамматическая, стилистическая и переводческая разметка. Обработанные материалы преобразовали в формат xml и их конвертировали в базу данных SQL [Liu, Shao, 2016: 155].

Кроме того, с использованием корпусных поисковых программ (WordSmith, AntConc и пр.) было проведено исследование и вычисление разных языковых параметров в трех китайских переводах. Так, были получены статистические данные о количестве употребления слов (Type) и словоформ (Token) в переводах. По формуле TTR (type/ token ratio) был вычислен коэффициент лексического разнообразия текстов, также был проведен квантитативный анализ лексической плотности и получены частотные словники. Кроме того, разметка единиц корпуса информацией разного типа позволила установить соотношение количества употреблений фразеологизмов, состоящих из четырех иероглифов, к общему количеству предложений, а также соотношение количества употребления слов, состоящих из повторяющих иероглифов, к общему количеству предложений в переводе. Рассматривался также вопрос о различии стилей трех переводчиков. При анализе их языковых особенностей, помимо всего, учитывалось количество служебных слов, средняя длина предложений и ряд других параметров.

Создатели корпуса планируют в дальнейшем уделить особое внимание семантической и дискурсивной разметке текстов. Они также пишут о возможности реализовать функцию семантического поиска в корпусе на основе подсоединения семантических словарей.

Второй блок рассматриваемого корпуса (направление "китайский ^ русский") содержит роман-оригинал "Осень" Ба Цзиня и его русский перевод. Объем оригинала - 10,663 предложения, 1,300 079 иероглифов (рис. 12).

Рис. 12

В подкорпусе осуществлена грамматическая разметка перевода. Помечены предикатив, деепричастия глаголов НСВ и СВ, причастие действительного залога глаголов НСВ и СВ, полная и краткая формы причастия страдательного залога глаголов НСВ и СВ.

В отличие от параллельного корпуса в НКРЯ в китайской части обоих подкорпусов можно задать поиск на китайском языке как по иероглифу, так и по лексическим единицам, состоящим из более одного иероглифа.

5. Китайско-русский параллельный корпус официально-деловых текстов с дискурсивно-структурной разметкой

Название данного корпуса отражает как жанр текстов, его составляющих, так и ориентацию на текстовые особенности. В экспериментальном режиме в корпусе размещены четыре "Доклада о работе правительства КНР" (с 2012 по 2015 г.) на китайском языке и их переводы на русский. Планируется расширение корпуса за счет увеличения числа докладов, а также законов и официально-деловых текстов других жанров. На данный момент объем корпуса составляет 931 абзац, 116,668 текстоформ, в том числе 46,190 текстоформ в русской части и 70,478 - в китайской [Мухин, Ян, 2016: 24].

При работе над корпусом использовался опыт Китайско- английского параллельного корпуса с дискурсивно-структурной разметкой [Feng, 2013] и Китайского дискурсивного трибанкаСинтаксически аннотированного корпуса. [Li, Feng и др., 2014], а также платформа, т.е. программное обеспечение, первого.

В текстах корпуса на грамматической, семантической и формально-пунктуационной основе были выделены элементарные дискурсивные единицы (далее - ЭДЕ) и дискурсивные связки (эксплицитные и имплицитные), а также определены виды дискурсивных отношений. При установлении вида дискурсивных (логикосемантических) отношений использовалась классификация, разбивающая их на четыре группы и 17 разновидностей: 1) параллельные отношения (соединительные, последовательные, прогрессивные, альтернативные и сравнительные); 2) противительные отношения (противопоставительные и уступительные); 3) каузальные отношения (собственно каузальные, целевые, обстоятельственные, условные, гипотетические, а также отношения умозаключения); 4) расширительные отношения (изъяснительные, заключительные, иллюстрационные и оценочные).

На основе членения параллельных текстов на ЭДЕ, выделения дискурсивных связок и выяснения дискурсивных отношений было произведено выравнивание текстов по соответствующим элементам (рис. 13, взято из [Мухин, Ян, 2016: 24]).

В квадратных скобках дается дискурсивная единица (ЭДЕ), буквы и цифры между ними обозначают китайские клаузы, соотносимые с ними русские синтаксические единицы и их порядок. Количество вертикальных черт (знак "|") перед клаузой указывает на уровень иерархии в структурном дереве, к которому она относится. Дискурсивные связки подчеркнуты, а знак "@" обозначает центральное положение ЭДЕ в отношении между клаузами [там же: 24--25].

Рис. 13

Разметка и выравнивание в данном корпусе проводилось вручную с использованием вышеупомянутого программного обеспечения для Китайско-английского параллельного корпуса с дискурсивно-структурной разметкой (рис. 14, взято из [там же: 27]).

Рис. 14

Практика создания данного типа корпуса будет очень полезна при разработке аналогичных корпусов. Авторы отмечают, однако, что техническое несовершенство дискурсивно-структурной разметки текстов требует дальнейшего улучшения и правки. По их словам, нуждается в уточнении и сама классификация логико-сематических отношений, что требует синтеза китайской и русской лингвистической традиции. Процедура сегментации текстов и выделения ЭДЕ пока формализована в недостаточной степени, а текстовая вариативность заставляет уточнять принципы выравнивания исходного и переводного текстов. Использованная платформа также ждет расширения возможностей и прежде всего обеспечения функции добавления большего числа видов дискурсивных отношений. Создатели корпуса в дальнейшем постараются решить указанные проблемы и пополнить корпус новыми текстами с переводом не только в направлении "китайский прусский", но и "русский ^-китайский".

Доступ пользователей к данному корпусу пока отсутствует.

6. Китайско-русские параллельные корпуса отдельных произведений

6.1. Китайско-русский параллельный корпус романа "Страна вина".

Роман "Страна вина", написанный китайским писателем, лауреатом Нобелевской премии Мо Янем, был опубликован на китайском языке в 1992 г. Его перевод на русский язык издан в 2012 г. (переводчик - русский ученый-китаист И.А. Егоров).

В 2014 г. был создан китайско-русский параллельный корпус данного романа [Piao, Li, Wang, 2014: 46]. Создатели корпуса - китайские ученые из Яньбяньского университета Пяо Чжэхао и др. - выровняли оригинал и перевод по предложениям и сделали в оригинале разметку по четырем "формам слов", состоящим из иероглифов-повторов: AA, ABB, AABB, ABAB. Они попытались также выявить, какие правила действуют при переводе таких китайских единиц на русский язык. На первом шаге была использована поисковая программа HyConc, с помощью которой в оригинале были обнаружены все слова с повтором. На втором шаге были получены статистические данные о наличии таких слов в оригинале. На третьем шаге был проведен сопоставительный анализ найденных слов с их переводами.

К сожалению, создатели корпуса не упомянули в своей статье о возможности доступа к корпусу.

6.2. Параллельный корпус "Русские переводы трактата "Дао Дэ Цзин". Китайский классический даосский философский трактат "Дао Дэ Цзин" (далее - ДДЦ), авторство которого приписывается легендарному Лао-цзы (VI--V вв. до н.э.), считается основой китайской философии и культуры. Он переведен на разные языки и распространяется во всем мире.

Первый перевод ДДЦ на иностранный язык датируется 674 г.: этот санскритский перевод ДДЦ, сделанный китайским буддийским монахом Сюаньцзаном, привезли посланцы в Индию [Zheng, Wang, 2009: 96]. Первый перевод на латинский язык появился в 1880-е годы. В 1842 г. в Париже увидел свет первый полный французский перевод ДДЦ, выполненный С. Жюльеном. Первый английский перевод Д. Чалмерса опубликовали в 1868 г. Первый немецкий перевод В. фон Штрауса был издан в 1870 г. Первый профессиональный русский перевод вышел в свет в 1894 г. Он был выполнен японским русистом Д.П. Кониси и отредактирован Л.Н. Толстым.

Сложность и многозначность философских произведений приводит к постоянной работе по их пониманию, трактовке и соответственно многообразию вариантов перевода. В России ДДЦ уделялось и уделяется большое внимание. На протяжении более ста лет насчитывается более двадцати русских переводов ДДЦ (Ян Хиншуна, А. Волынского, И.С. Лисевича, Б.Б. Виноградского, А.А. Маслова, В.В. Малявина, Е.А. Торчинова, И.И. Семененко, А. Кувшинова, А.Е. Лукьянова, М. Соловьевой, А.П. Саврухина, С.В. Батонова, О. Борушко, Н. и Т. Доброхотовых, Ю. Полежаевой и других авторов).

Лев Толстой так характеризовал особенности и значение ДДЦ: "Основа учения Лао-Тзе одна и та же, как и основы всех великих, истинных религиозных учений. Она следующая: человек сознает себя прежде всего телесной личностью, отделенной от всего остального и желающей блага только себе одному. Но, кроме того, что каждый человек считает себя Петром, Иваном, Марьей, Катериной, каждый человек сознает себя еще и бестелесным духом, таким же, какой живет во всяком существе и дает жизнь и благо всему миру... Человек может жить для тела или для духа. Живи человек для тела, - и жизнь горе, потому что тело страдает, болеет и умирает. Живи для духа, - и жизнь благо, потому что для духа нет ни страданий, ни болезней, ни смерти. Человеку надо научиться жить не для тела, а для духа. Этому-то и учит Лао-Тзе. Учение свое он называет путем, потому что все учение указывает путь к этому переходу. От этого и все учение Лао-Тзе называется книга Пути." [Толстой, 1957].

Современность и актуальность ДДЦ подтверждается, в частности, постоянным обращением к нему премьер-министра РФ Дмитрия Медведева. В последние годы премьер Медведев неоднократно приводил цитаты из ДДЦ в разных официальных случаях: на Петербургском экономическом форуме (10 июня 2007 г., 19 июня 2010 г.), на лекции в Пекинском университете и ответы на вопросы студентов и преподавателей (24 мая 2008 г.), в Послании Федеральному Собранию (22 декабря 2011 г.), на Расширенном заседании Госсовета (24 апреля 2012 г.), на Выступлении на Пленарной сессии Всемирного экономического форума "Сценарии развития Российской Федерации" в Давосе (23 января 2013 г.)URL: http://www.amic.ru/news/206435/ (accessed: 26.01.2018). URL: http://www.vedomosti.ru/politics/news/2016/11/04/663631-medvedev-lao- tszi (accessed: 26.01.2018)..

Как отмечает Д. Медведев в своем интервью, со времен, когда это произведение было написано, проблемы, стоящие перед человечеством, мало изменились 11. В этом же интервью он пишет о необходимости знакомства с разными переводами данного текста: "Я действительно с интересом всегда читаю это произведение (ДДЦ), тем более что существует с десяток переводов на русский язык, как и на другие языки, и каждый перевод отличен от другого".

Корпусная и компьютерная лингвистика предоставляет современным читателям богатые возможности не только для чтения текста, но и его глубокого самостоятельного изучения. Конкорданс ДДЦ на китайском языке был впервые создан в 1922 г. в ручном режиме китайскими учеными во главе с Цай Тинганем. Он заслужил высокую оценку. Это первая в истории Китая попытка анализа древних текстов с помощью конкорданса. Потом автоматическим путем появились конкордансы ДДЦ не только в Китае, но в Японии (для японских переводов). В них присутствует, кроме списка частотных иероглифов, также список частотных "слов" (лексических единиц), состоящих из двух или больше иероглифов [Wang, Du, 2008: 35-36].

Однако для продуктивного межкультурного взаимодействия нужны не просто конкордансы, а полноценные средства изучения и сопоставления различных переводов и оригинала. В связи с этим один из авторов данной статьи Чэнь Сяохуэй (Народный университет Китая) поставила перед собой задачу создания китайско-русского параллельного корпуса ДДЦ. Работа проводилась на методической и программной базе "Лаборатории общей и компьютерной лексикологии и лексикографии" (ЛОКЛЛ) филологического факультета МГУ имени М.В. Ломоносова, основанной А.А. Поликарповым. Работа по сбору текстов корпуса и их выравниванию, подготовке справочных материалов и разметке метаданными была проведена Чэнь Сяохуэй; создание на этой основе электронного корпуса и его автоматическая обработка осуществлялось руководителем ЛОКЛЛ О.В. Кукушкиной.

В качестве оригинала была использована общепринятая версия ДДЦ под редакцией комментатора Ван БиURL: http://ctext.org/dao-de-jing/zhs (accessed: 30.10.2017).. С помощью программы "PinyinTaggerApp" иероглифический текст был преобразован в транскрипцию. Далее был собран массив текстов, состоящий из 21 перевода ДДЦ. Источником послужил русскоязычный Интернет. Каждый текст был снабжен метаданными, включающими идентификатор автора, год создания и другие сведения.

Создано две версии корпуса: сокращенная (три перевода) и полная (21 перевод). Они отличаются длиной синхронизированных фрагментов и способом их представления. В сокращенном варианте тексты вручную были разбиты на смысловые фрагменты, которые в основном соответствуют знакам препинания в оригинале (в том числе и знакам, находящимся внутри предложения). Всего было выделено 582 фрагмента. В существующем к настоящему времени полном варианте ручная разбивка и синхронизация фрагментов внутри глав не производилась в связи с большим объемом. Качественная автоматизация этого процесса пока не представляется возможной.

В сокращенную версию вошли три перевода: 1) первый профессиональный перевод под редакцией Л.Н. Толстого, сделанный с древнекитайского в 1894 г. японским русистом Д.П. Кониси;

2) классический перевод, сделанный с древнекитайского в 1950 г. советским синологом, китайцем по происхождению Ян Хиншуном;

3) новый перевод, сделанный с древнекитайского в 2002 году с учетом новейших научных данных русским синологом В.В. Малявиным.

После подготовки текстовых данных с помощью разработанной в ЛОКЛЛ системы автоматического анализа текстов и словарей "Dictum" был создан электронный корпус, в котором произведена автоматическая лемматизация и морфологический анализ русских текстов, а также разметка единиц текстов такими параметрами, как язык, переводчик, часть речи, фрагмент, глава. После этого корпус был конвертирован в систему "Исток" (программист В. Федотов), созданную в ЛОКЛЛ в качестве информационного-исследовательского средства, предоставляемого пользователю вместе с интересующими его корпусами текстов. Это средство дает возможность работать с текстом в нескольких режимах: чтение выбранного текста, получение по нему разного рода конкордансов (на основе предварительно сделанной разметки) и словников (алфавитного, частотного, обратного), изучение справочной информации (в том числе и словарной) о тексте и его единицах. Таким образом, оно позиционируется и развивается как филологический, а не чисто лингвистический инструмент. В настоящее время программа "Исток" с корпусом художественных произведений Чехова и синхронизированным с этим корпусом словарем и справочными материалами доступна для всех желающих на сайте лабораторииURL: http://www.phiIol.msu.ru/~lex/chehov.htmI.. На этом же сайте предполагается выложить и пилотную версию корпуса переводов ДДЦ (рис. 15).

Рис. 15

Пользователю предоставляется возможность выбрать нужный фрагмент или главу, прочитать его, прослушать его звучание и увидеть иероглифическую запись. В сокращенном варианте корпуса оригинал и тексты трех переводов отображаются "построчно", что облегчает сопоставление (рис. 16).

Рис. 16

В полном варианте сопоставление затруднено, так как выводить на экран можно только главу в переводе одного автора.

Поиск в русских переводах можно осуществлять по словоформе, лемме и части речи (рис. 17).

В китайском тексте поиск возможен пока только по транскрипционной передаче иероглифа (с учетом тонов, записанных цифрами). Из-за того, что в древнекитайском языке в большинстве случаев каждый отдельный иероглиф употребляется как эквивалент слова, в китайском тексте, как и в русском, оказывается возможным пословный поиск, получение конкордансов для каждой лексической единицы, а также алфавитных, частотных и обратных словников единиц (рис. 18).

Рис. 19

Пересечение разных типов информации позволяет производить исследование и сопоставление переводов. Так, пользователь может получить с помощью функции "фильтрации" частотный словник лемм и словоформ для каждого перевода. См. рис. 19, на котором отображен такой словник для перевода Ян Хиншуна.

В целях развития справочной составляющей сейчас ведется работа над созданием и подключением к единицам, представляющим иероглифы, понятийного указателя (словаря). В дальнейшем на этой основе возможна реализация какого-то варианта семантического поиска.

Автоматическое получение первичных статистических данных, например, о количестве употребления разных слов и общем объеме текста в оригинале и каждом из переводов, позволяет пользователю получать самостоятельные результаты, например, вычислять по какой-либо из формул коэффициент лексического разнообразия каждого из переводов. См., например, результаты сравнения соотношения количества словоупотреблений и разных слов для трех переводов и оригинала (формула TTR).

	Оригинал	Перевод Кониси	Перевод Ян Хиншуна	Перевод Малявина
Количество словоупотреблений	5282	6575	6118	6048
Количество разных лемм	798	1414	1315	1467
Соотношение	0,14	0,22	0,21	0,25

Как можно видеть, все русские переводы более многолексемны ("лексически разнообразны"), чем китайский оригинал. А среди трех переводов по количеству разных лексем явно лидирует перевод Малявина.

В настоящее время статистические результаты могут носить лишь предварительный характер, так как пока не производилась проверка снятия омонимии в переводах. Для китайского оригинала при использовании транскрипционной записи возникает проблема дополнительного учета и различения тех иероглифов, которые произносятся одинаково. Так, в оригинале всего 504 разных знаков транскрипции, и корпус выдает этот "сокращенный" список. Но реальное число разных иероглифов в ДДЦ равно 798.

Мы планируем продолжить работу над развитием корпуса и пополнить его другими древнекитайскими произведениями и их переводами на русский язык. Полагаем, что эта совместная работа с филологическим факультетом МГУ имени М.В. Ломоносова будет в полной мере способствовать не только решению собственно лингвистических задач, но и углублению межкультурного взаимодействия.

Результаты корпусно-ориентированного исследования ДДЦ и его русских переводов планируется изложить в отдельной статье.

В заключение можно сказать, что использование параллельных корпусов приобретает все большую перспективу и актуальность. Они крайне необходимы читателям, исследователям, переводчикам, преподавателям и учащимся. Необходимо признать, что разработка и использование параллельных корпусов русских и китайских текстов находится пока на начальном этапе. Объем существующих корпусов пока еще очень мал, а их тематика недостаточно широка; специалистов, занимающихся разработкой корпусов, обработкой текстов и корпусно-ориентированным исследованием, не хватает. Перед нами стоит весьма важная и большая задача, которую предстоит решить в ближайшем будущем.

Список литературы

1. Мухин М.Ю., Ян И. Проект создания китайско-русского параллельного корпуса официально-деловых текстов с дискурсивно-структурной разметкой // Вестник ЮУрГУ. Серия "Лингвистика". 2016. Т. 13. № 4. С. 23-31.

2. Орехов Б.В. Параллельный корпус переводов "Слова о полку Игоре- ве": итоги и перспективы // Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы / Отв. ред. В.А. Плун- гян. СПб, 2009. С. 462-473.

3. Тао Юань, Захаров В.П. Разработка и использование параллельного корпуса русского и китайского языков // Научно-техническая информация Сер. 2: Информационные процессы и системы. 2015. № 4. С. 18-29.

4. Создание и использование параллельного корпуса русского и китайского языков // Вестник МГПУ Сер. "Филология. Теория языка. Языковое образование". 2015. № 3. С. 76-82.

5. Тао Юань, Захаров В.П. "Иностранизация" сочетаемости в конструкциях с предлогом ^ (dui) при переводе научных текстов с русского языка на китайский // Вестн. Моск. ун-та. Сер. 22. Теория перевода. 2016. № 3. С. 58-72.

6. Тао Юань, Захаров В.П. Корпусно-ориентированный анализ универсалии "иностранизация" в конструкциях с предлогом "^" (dui) в научных текстах, переведенных с русского языка на китайский // Вестник СПбГУ. Востоковедение и африканистика. 2017. Т. 9. Вып. 2. С. 150-158.

7. Толстой Л.Н. Полн. собр. соч.: В 90 т. Т. 40. М., 1957.

8. Цуй Вэй, Чжан Лан. E-han fanyi pingxing yuliaoku jiqi yingyong yanjiu // Jiefangjun waiguoyu xueyuan xuebao. 2014. № 1. P. 81-87. (In Chin.)

9. Цуй Вэй, Ли Фэн. E-han-han-e pingxing yuliaoku de goujian shexiang yu yingyong zhanwang // Zhongguo eyu jiaoxue. 2014. № 1. P. 1-5. (In Chin.)

10. Лю Мяо, Шаоцин. E-han wenxue fanyi yuliaoku de chuangjian--jiyu qiehe- fu xiaoshuo pingxing yuliaoku de sheji yu jiangou // Waiyu xuekan. 2016. № 1. P. 154-158. (In Chin.)

11. Лю Мяо, Шаоцин. Jiyu duoyiben pingxing yuliaoku de fanyi yuyan tezheng yanjiu - dui qiehefu xiaoshuo sanyiben de duibi fenxi // Jiefangjun waiguoyu xueyuan xuebao. 2015. № 5. P. 126-133. (In Chin.)

12. Пяо Чжэхао, Ли Цинхуа и Ван Лися. Jiyu han-e pingxing yuliaoku de "jiu guo" dieyinci eyi guild yanjiu // Zhongguo eyu jiaoxue. 2014. № 3. P. 4651. (In Chin.)

13. Тао Юань. Renwen sheke xueshu wenben e-han pingxing yuliaoku de chuangjian yu yanjiu // Yuliaoku yuyanxue. 2014. № 1. P. 78-93. (In Chin.)

14. Тао Юань, Ху Гумин. Zhishi dongci yuyiyun de fanyi yanjiu - jiyu e-han pingxing yuliaoku de zhuanye wenben // Wuhan daxue xuebao (Renwen kexue ban). 2015. № 1. P. 119-124. (In Chin.)

15. Тао Юань. Jiyu e-han pingxing yuliaoku de fanyi danwei yanjiu // Waiyu jiaoxue. 2015. № 1. P. 108-113. (In Chin.)

16. Тао Юань. Jiyu e-han pingxing yuliaoku de чтобы congju fanyi zaozuo gui- fan yanjiu // Jiefangjun waiguoyu xueyuan xuebao. 2015. № 5. P. 117-125. (In Chin.)

17. Ван Ягэ, Ду Хуэйпин. Jibian guji suoyin tantao - yi "Dao De Jing" ciyu suoyin zidong bianzuan weili // Tushuguan luntan. 2008. № 5. P. 34-27. (In Chin.)

18. Чжэн Шицюй, Ван Юнпин. Zhongguo wenhua tongshi: suitang wudai zhuan [M]. Beijing: Beijing shifan daxue chuban jituan. 2009. P. 96. (In Chin.)

19. Feng Wenhe. Alignment and Annotation of Chinese-English Discourse Structure Parallel Corpus // Journal of Chinese Information Processing. 2013. 27(6). P. 158-165.

20. Li Yancui, Feng Wenhe, Sun Jing, Kong Fang, Zhou Guodong. Building Chinese Discourse Corpus with Connective-driven Dependency Tree Structure // Proceedings of the 2014 conference on Emporical Methods in Natural Language Processing, Doha, Qatar. 2014. P. 2105-2114.

21. Tao Yuan. Operating norms in translation on the basis of Russian-Chinese corpora: a case of чтобы clauses in Russian // Вестник СПбГУ. Сер. 9. 2016. № 1. С. 107-119.

22. About the authors: Chen Xiaohui - Cand. Sc (Philology), Assistant Professor at Renmin University of China, China (); Olga V. Kukushkina - Dr. Sc (Philology), Professor at Lomonosov Moscow State University, Russia (

23. References

24. Muhin M.YU. Yang I. Proekt sozdaniya kitajsko-russkogo parallel'nogo korpusa oficial'no-delovyh tekstov s diskursivno-strukturnoj razmetkoj. Vestnik YUUrGU. Seriya: "Lingvistika", 2016, t. 13, № 4, pp. 23--31. (In Russ.)

25. Orekhov B.V. Parallel'nyj korpus perevodov "Slova o polku Igoreve": itogi i perspektivy. Nacional'nyj korpus russkogo yazyka: 2006-2008. Novye rezul'taty i. Otv. red. V.A. Plungyan, SPb, 2009, pp. 462-473. (In Russ.)

26. Tao Yuan, Zaharov V.P. Razrabotka i ispol'zovanie parallel'nogo korpusa russkogo i kitajskogo yazykov. Nauchno-tekhnicheskaya informaciya Ser. 2: Informacionnyeprocessy i sistemy, 2015, № 4, pp. 18-29. (In Russ.)

27. Tao Yuan. Sozdanie i ispol'zovanie parallel'nogo korpusa russkogo i kitajskogo yazykov. Vestnik MGPU, ser. "Filologiya. Teoriyayazyka. YAzykovoe obrazovanie", 2015, № 3, pp. 76-82. (In Russ.)

28. Tao Yuan, Zaharov V.P. "Inostranizaciya" sochetaemosti v konstrukciyah s predlogom ^ (dui) pri perevode nauchnyh tekstov s russkogo yazyka na kitajskij. Vestnik Moskovskogo universiteta, ser. 22: Teoriyaperevoda, 2016, № 3, pp. 58-72. (In Russ.)

29. Tao Yuan, Zaharov V.P. Korpusno-orientirovannyj analiz universalii "inostranizaciya" v konstrukciyah s predlogom "^" (dui) v nauchnyh tekstah, perevedennyh s russkogo yazyka na kitajskii. Vestnik SPbGU, Vostokovede- nie i afrikanistika. 2017, t. 9, vyp. 2, pp. 150-158. (In Russ.)

...

Страница:

статья "О параллельных корпусах русских и китайских текстов" скачать

Подобные документы

Синтаксические особенности научных текстов Л.В. Щербы
Теоретические и лингвистические основы описания трудов Л.В. Щербы, теоретические основы описания научных текстов в современной лингвистике. Своеобразие научных текстов, их синтаксический анализ. Словосочетание и простое предложение в трудах Л. Щербы.

дипломная работа [62,0 K], добавлен 25.02.2010
Лингвомедийные особенности английских и русских рекламных текстов
Характеристика и классификация рекламных текстов, их лексические и синтаксические особенности. Сравнительный анализ англоязычных и русскоязычных рекламных текстов. Разработка урока в рамках темы "Mass Media" на основе проанализированных рекламных текстов.

дипломная работа [4,4 M], добавлен 14.02.2013
Демографическая политика Китая (особенности перевода)
Анализ сложностей перевода китайских текстов на демографическую тему. Перевод текста с китайского языка на литературный русский язык, проведение грамматического и лексического анализа переведенного текста. Особенности специальной демографической лексики.

курсовая работа [69,4 K], добавлен 21.09.2015
Проблема адекватности и эквивалентности перевода текстов современных англоязычных песен на материале переводов текстов групп "The Beatles" и "Depeche Mode"
Принципы стихотворного художественного эквивалентного перевода. Характеристики англоязычных песен. Проблема взаимодействия автора художественного текста и переводчика. Сопоставительный анализ текстов переводов песен групп "The Beatles" и "Depeche Mode".

дипломная работа [115,2 K], добавлен 06.11.2011
Особенности переводов поэтических текстов А. Ахматовой
Лирическая поэзия как род художественной литературы Основные проблемы и особенности переводов поэтических текстов. Место творчества А. Ахматовой в женской поэзии Серебряного века. Переводческие трансформации в переводе ее произведений на английский язык.

дипломная работа [119,9 K], добавлен 17.12.2013
Языковая ситуация в Китае
Путунхуа – официальный нормативный общегосударственный китайский язык. Сравнение языковой ситуации в Китае с ситуацией на улицах китайских городов. Лексико-грамматические особенности диалектов. Языковая политика в КНР. Решение о введении языкового теста.

реферат [18,8 K], добавлен 09.03.2013
Специфика воспроизведения гендерных особенностей в англо-русском переводе (на материале текстов рекламной направленности)
Характеристика и классификация рекламных текстов, теоретические аспекты перевода. Лингво-переводческий анализ воспроизведения гендерных особенностей в англо-русском переводе, сопоставительная оценка переводов текстов, выявление адекватности их специфики.

курсовая работа [76,4 K], добавлен 21.06.2011
Перевод метаязыка с французского на русский на примере телепередачи Merci Professeur
"Метаязык" как понятие в лингвистике и переводоведении. Особенности научного стиля и обзор классификаций текстов. Жанр телепередач и прагматический аспект перевода научных текстов. Особенности перевода французских текстов научно-популярного подстиля.

курсовая работа [44,2 K], добавлен 06.03.2015
Классификация языков мира
Родословное древо языков и как его составляют. Языки "вставляющие" и языки "изолирующие". Индоевропейская группа языков. Чукото-камчатские и другие языки Дальнего Востока. Китайский язык и его соседи. Дравидские и прочие языки континентальной Азии.

реферат [45,6 K], добавлен 31.01.2011
Многозначные слова в русском и английском языках
Теоретическое исследование вопроса перевода многозначных слов на примере газетных текстов. Многозначные слова в русском и английском языках. Особенности газетно-информационных текстов. Изучение закономерных соответствий между конкретными парами языков.

дипломная работа [142,1 K], добавлен 06.06.2015
Национально-культурная специфика фразеологизмов
Предмет и задачи фразеологии, причины образования, её семантика. Место фразеологии в трудах иностранных ученых и в русском языке. Связь культуры и фразеологии. Особенности фразеологизмов разных стран. Сравнение китайских и русских фразеологизмов.

курсовая работа [45,1 K], добавлен 29.03.2019
Проблемы перевода музыкально-поэтических текстов с английского языка на русский
Понятия "содержание" и "форма" при переводе музыкально-поэтических текстов. Сопоставительный анализ текстов оригинала (подлинника) и перевода. Лексические и грамматические трансформации при переводе музыкально-поэтических текстов песен Джона Леннона.

дипломная работа [174,2 K], добавлен 09.07.2015
Лексические проблемы перевода с русского языка на китайский
Общая характеристика и особенности китайского языка как одного из древнейших языков. Сущность и специфика проблем перевода с русского языка на китайский. Грамматическая трансформация и специфика передачи стилистических приемов, основанных на игре слов.

курсовая работа [48,6 K], добавлен 05.02.2013
Особенности построения текстов различных стилей
Факторы речевой организации текста. Характеристика текста как особой речевой единицы. Основные типы текстов. Построение текстов различных стилей. Особенности построения текстов в научном, публицистическом, официально-деловом и художественном стилях.

курсовая работа [46,9 K], добавлен 22.05.2015
Лексические значения цифровых сочетаний в китайских чатах как элемент сленга и их этимология
Изучение сущности и этимологии молодежного сленга - лексикона на фонетической и грамматической основе общенационального языка, отличающегося фамильярной окраской. Сокращения, состоящие из цифр как один из элементов сленга китайских молодежных чатов.

курсовая работа [44,7 K], добавлен 13.06.2012
Англицизмы китайских чатов как элемент сленга современного китайского языка
Сленг как вариант диалекта субэтноса, особенности развития русской лексикологии. Этимология слова "сленг", англицизмы и причины их появления. Интернет чаты и социальные сети как источник англицизмов. Китайский язык и его фонемы в современном сленге.

курсовая работа [51,2 K], добавлен 13.06.2012
Перевод газетно-информационных текстов
Функционально-стилистическая характеристика газетно-информационного текста, особенности перевода и трудности в данной сфере. Анализ англо-русского и русско-английского перевода газетно-информационных текстов, выявление основных способов избежать ошибок.

дипломная работа [132,8 K], добавлен 03.07.2015
Анализ литературного памятника на идише "Цеэны у-Реэны"
Краткий очерк истории языка идиш, специфика его дословного перевода. Текстологический анализ и типовая классификация переводов литературного произведения "Цеэна у-Реэна". Выбор способа передачи сакральных текстов библейского оригинала рабби Я. Ашкенази.

курсовая работа [61,9 K], добавлен 01.12.2017
Проблема выбора слова при переводе корейских текстов на общественно-политическую тематику
Характеристика общественно-политических текстов. Сущность безэквивалентной лексики. Распространение фразеологизмов. Лексические трансформации, анализ переводческих решений, используемых при переводе лексических единиц с корейского языка на русский.

курсовая работа [43,9 K], добавлен 26.03.2019
Лексико-грамматические особенности перевода научных текстов
Лексические и грамматические проблемы перевода научно-технических текстов, насыщенных специальными терминами и словосочетаниями. Атрибутивные конструкции как один из распространенных типов свободных словосочетаний в английских научно-технических текстах.

курсовая работа [78,0 K], добавлен 23.07.2015

Другие документы, подобные "О параллельных корпусах русских и китайских текстов"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.