Типы частотных ошибок

Определение областей письменного английского, которые наиболее затруднительны для русскоговорящих студентов, методы и способы их дополнительной отработки. Дополнение инструкции по аннотированию в корпусе REALEC. Вероятность ошибок и их профилактика.

Рубрика Педагогика
Вид курсовая работа
Язык русский
Дата добавления 23.07.2016
Размер файла 1,2 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Введение

Наука под названием корпусная лингвистика берет свое начало в 60-х годах 20-го века, когда была создана первая компьютерная база данных, представлявшая собой собрание текстов, объединенных некоторыми общими признаками и пригодная к дальнейшему использованию в качестве инструмента получения лингвистических данных. Такая база данных получила название «корпус», и этим первым корпусом стал так называемый Brown Corpus (или BC, что в переводе - Брауновский корпус), названный так по имени университета, где он был создан. Нетрудно догадаться, что связующей чертой собранных текстов на тот момент оказался только язык, на котором они были написаны - английский, - и что размер того первого корпуса был по современным меркам очень небольшой. Сегодня корпус, состоящий из 500 текстов, вряд ли будет представлять серьезный интерес для исследователей. Исключение может составлять разве что какой-нибудь исключительный признак, по которому они собраны - например, редкий или даже вымерший язык, сравнительно небольшой географический ареал, где можно эти тексты добыть, или любое другое редкое или даже экзотическое свойство, из-за которого такие тексты просто невозможно собрать в большем количестве. Объемы же современных корпусов исчисляются тысячами, а иногда и десятками или сотнями тысяч текстов. Теперь уже не по единицам, а по сотням разных признаков эти тексты могут объединяться в подкорпуса, а работа по извлечению необходимых данных (например, статистики) значительно упрощена благодаря развитию компьютерных технологий и способностям программ, обеспечивающих работу корпусных сайтов, делать самые различные автоматические подсчеты, анализ, сортировку. Например, современный корпус русского языка (НКРЯ) включает в себя более 76 тысяч текстов, которые уже разбиты на подкорпуса по такому признаку, как жанр - художественные / нехудожественные тексты, газетные, поэтические, диалектные, исторические и многие другие разновидности. Отдельно стоит выделить, пожалуй, корпуса звучащей речи (которые не следует путать с устными корпусами: первые - собрания звуковых дорожек с текстами, вторые - их текстовые транскрипции) и параллельные корпуса. Последние называются так потому, что каждая строка текста представлена в них параллельно на двух языках, что позволяет анализировать языковые явления не в пределах одного языка, а в сравнении с некоторым другим. Однако, существует также совершенно особый вид текстовых корпусов, который также все больше и больше набирает популярность и способен открыть перед исследователями новые возможности. Речь идет о так называемых учебных корпусах, или корпусах ошибок.

Что же может предоставить исследователям учебный корпус? Для начала следует разобраться, что имеется общего у всех корпусов-то есть, какие возможности открывают перед своими пользователями компьютерные корпуса как таковые. Как уже было сказано, корпуса помогают исследователям на этапе сбора языковых данных, чаще всего - примеров или статистики. Поэтому вполне логично, что для корпусов типичны такие инструменты, как поиск и сортировка; искать, как правило, можно не только конкретные слова или словосочетания, но и заданные при помощи регулярных выражений языковые элементы. Таким образом, можно задать, к примеру, некоторые грамматические, семантические или иные параметры искомой словоформы или словоформ - можно даже не задавать лемму вовсе, а просто выяснить по корпусу встречаемость тех или иных параметров. В некоторых корпусах возможно также задавать, к примеру, расстояние между словоформами, порядок их следования, ограничения по левому или правому контексту (если исследователя интересует только что-то одно) и многое другое. Из этой особенности компьютерных корпусов логически следует вторая - компьютерные корпуса обычно бывают размечены. Собственно, без разметки не было бы всего остального: именно при помощи морфологической, синтаксической и иных разметок все токены текстов получают ярлыки - так называемые тэги, содержащие ту информацию о токенах, которую способны распознавать поисковые системы. Все это также присутствует в учебных корпусах наравне со всеми остальными корпусами. Отличие же корпусов ошибок состоит в том, какая именно разметка в таких корпусах играет ключевую роль.

Только в учебных корпусах используется разметка ошибок, то есть разметка их типов. Вот почему такие корпуса называются корпусами ошибок, а учебными - потому, что составлены из текстов, авторы которых не являются носителями определенного языка, но изучают его. Как правило, такие корпуса бывают организованы из работ изучающих L2 с одним общим L1.

С чего же начинается работа над созданием такого корпуса? Вполне логично, помимо сбора текстов, она начинается с составления подробной классификации ошибок для дальнейшей разметки текстов. Эта разметка, в отличие от некоторых других (например, частеречной), в силу своей специфики часто производится экспертами вручную. Как правило, типы ошибок бывают классифицированы иерархически на нескольких уровнях; иначе говоря, система ярлыков, которые навешиваются на слово с ошибкой, организована в виде дерева. Составляется «дерево» следующим образом: наиболее общие категории ошибок бывают поделены на подкатегории; те, в свою очередь - на еще более мелкие подкатегории, и т.д. - до того момента, когда каждая «веточка» такого «дерева-классификации» будет оканчиваться ярлыком с максимально конкретизированным типом ошибки.

Для чего же был изначально придуман тип такой разметки, и как именно применяются в жизни учебные корпуса? Прежде всего, как и прочие корпуса, они являются незаменимым источником для сбора лингвистических данных. Чрезвычайно подробно об этом написано, к примеру, у бельгийской исследовательницы корпусной лингвистки и основательницы построения учебных корпусов Сильвиан Грейнджер в одной из ее работ под названием «Учебные корпуса с разметкой ошибок и CALL: успешная совместная работа в перспективе» (Granger 2003). В ней она, в частности, определяет учебный корпус как «электронную коллекцию аутентичной информации по иностранному, или второму языку», а далее уточняет важнейшие его черты: компьютеризованность и представительные размеры. Первое, согласно С. Грейнджер, «позволяет анализировать информацию об иностранном языке с помощью целого ряда компьютерных, автоматических инструментов обработки лингвистических данных, что обеспечивает быстроту и продуктивность манипуляций с информацией. Здесь используются поиск, подсчет, различные функции сортировки, а также самые различные программы, снабжающие текстовые данные всей необходимой лингвистической информацией (например, о грамматических категориях, синтаксической структуре и т.п.)». Значительный же размер («часто в несколько сотен миллионов слов») позволяет учебным корпусам, подобно прочим, быть в своей области надежным источником данных и надежной базой для корпусных исследований и всех находок, заключений и выводов относительно процессов в освоении иностранного языка.

Также интересно упомянуть, например, статью Д.П. Дутры и Т.Б. Сардина «Референциальные выражения в аргументированных эссе изучающих английский язык» (Dutra, Sardinha 2013), в которой приводится уже более конкретный пример лингвистического корпусного исследования. Вообще подобных исследований проводилось уже немало: чтобы убедиться в этом, достаточно прочитать, например, статьи Т. Гэллата (Gaillat 2013), А. Эспуньи (Espunya 2013), М. Споилмана (Spoelman 2013), И. Усами (Usami 2013) и других авторов, собранные в издании под названием «Двадцать лет исследований учебных корпусов: оглядываясь назад, двигаясь вперед» (Gilquin et. al. 2013). А целью авторов первой упомянутой нами статьи, в частности, было сравнить использование различных референциальных выражений англоязычными и неанглоязычными студентами. Для этого была извлечена статистика из LOCNESS (Native English Essay corpus - в общем, корпусов текстов, написанных носителями английского языка) и из двух учебных корпусов. Все три корпуса в итоге помогли исследователям выяснить, какие именно подкатегории референциальных выражений используются изучающими английский язык чаще, а какие - реже. Учебные корпуса, однако, не только предоставили необходимую статистическую информацию, подкрепленную примерами; они также помогли авторам изначально выбрать тему своего исследования. Референциальные выражения оказались в фокусе внимания именно из-за того, что были засвидетельствованы как наиболее частотные сочетания от 3 до 5 слов в текстах эссе на английском языке во всех трех корпусах. Однако самое интересное заключается, пожалуй, не в предыстории, а в дальнейших перспективах: в работе с корпусами доступны легко вызываемые методы статистической обработки (которую едва ли можно провести вручную). Полученная таким образом информация может предоставить примеры для исследований в других сферах языкознания. Поясним: статистика, получаемая, в частности, при работе с учебными корпусами, оказывается полезна для преподавателей иностранного языка, так как перед нами наконец открывается абсолютно точная картина, где именно возникают трудности у учащихся с данным L1 чаще (а где реже), на каких темах следует сделать акцент при обучении и, главное, - ошибки какого рода допускают ученики (то есть не только где они ошибаются, но и как они это делают). Известно, что варианты неправильных употреблений и конструкций в осваиваемом языке у носителей разных L1 отличаются. Возникает естественное предположение, что то, на что именно становится похож их L2 в процессе изучения, и какие именно неправильные элементы они в него привносят от себя, может быть обусловлено влиянием их родного языка L1.

Именно такую гипотезу предстояло проверить и нам в процессе данной дипломной работы. В качестве конкретного учебного корпуса для работы был выбран REALEC (Russian Error-Annotated Learner English Corpus) - первый корпус англоязычных эссе, написанных русскоговорящими студентами. Он создавался сотрудниками и учащими НИУ ВШЭ и находится сейчас в открытом доступе - таким образом, проводить в нем наблюдения может любой желающий. На данный момент корпус содержит свыше 1200 студенческих работ - в большинстве своем это эссе, написанные во время подготовки к сдаче экзамена IELTS и на самом экзамене. В REALEC, как и прочих учебных корпусах, присутствует собственная подробная классификация ошибок (уже упоминавшееся выше «дерево»), которая используется преподавателями при проверке работ студентов-то есть разметке ошибок в их работах. Теперь перейдем к описанию системы разметки REALEC, так как она есть нечто большее, чем просто информация о типе ошибки.

Каждый «ярлык» в REALEC условно содержит 5 клеточек информации: тип ошибки, возможная причина ошибки, величина ошибки с точки зрения языка (насколько грубой следует признать данную ошибку), степень влияния этой ошибки на понимание текста, а также правильный вариант взамен ошибочного. В двух параметрах оценивания степени неправильности аннотатор выбирает один из трех параметров - «небольшая», «большая» и «критическая»; возможной причиной ошибки могут быть названы «Интерференция с L1», «Отсутствие данной категории в L1», «Опечатка» или «Прочее»; варианты же, доступные для выбора при указании типа ошибки, перечислять не представляется целесообразным, так как их насчитывается 156. Вместо этого дадим их схему:

Рис. 1

Отдельно покажем скрытые части, не умещающиеся на экран компьютера одновременно, но выводимые на него нажатиями знаков «плюс» рядом с категориями ошибок («Плюсы» означают, что данный тип ошибки имеет дальнейшее деление).

Рис. 2

На данном рисунке показано дальнейшее деление «Verbs» - впрочем, оно настолько подробное, что не умещается в одно окошко даже теперь. Вот как, в свою очередь, подразделяются «Two verbal forms in a row» и «Prepositional verb» (два ярлыка, напротив которых на рис. 2 остались «плюсы»):

Рис. 3

Рис. 4.

Оранжевым цветом в области «Grammar» выделены морфологические ошибки - их классификация теперь полностью проиллюстрирована (на рис. 4 представлены прочие не раскрытые категории), а вот, как подразделены в REALEC синтаксические ошибки (выделенные синим цветом):

Рис. 5

И, наконец, последними двумя рисунками покажем, как классифицированы ошибки в областях «Vocabulary» и «Discourse».

Рис. 6

Рис. 7

То, что данные организованы в виде «дерева», не означает, однако, что аннотирующему непременно необходимо остановиться на одном из «листьев», то есть на конечном элементе каждой ветви. При необходимости возможно остановиться на любом уровне «дерева» - если в дальнейшем ветвлении не представлено характеризующее именно данную ошибку описание, или если аннотирующий уверен, что следует описывать эту ошибку одновременно двумя или более ветвями схемы. В помощь размечающим на сайте можно найти инструкцию - описание, какой ярлык применяется в каких случаях; инструкция подкреплена примерами и находится по адресу http://realec.org/tagging_instructions.pdf. Повышение ее качества и добавление в нее всех необходимых подробностей играет, таким образом, немаловажную роль в повышении качества самой разметки и, как следствие, расширении возможностей работы с корпусом REALEC. Вот почему работа с этой инструкцией составляет отдельную часть данной дипломной работы, которая в общем и целом направлена на демонстрацию возможностей корпуса REALEC и на то, как именно можно извлечь из него максимальную пользу.

Как уже понятно из вышесказанного, данная дипломная работа не сводится к какой-либо единственной задаче; она преследует несколько отличающихся друг от друга целей, объединенных, тем не менее, общей идеей, или общим направлением, также уже определенным выше. Однако данную дипломную работу все же можно принципиально поделить на две части.

Первая часть включает в себя сбор статистики о типах ошибок и классификацию их по частотности; анализ полученных результатов; выявление возможных причин наиболее частотных ошибок (и особый интерес к случаям, где может присутствовать интерференция с родным языком); предложение, на каких именно моментах в процессе обучения английскому языку следует сделать акцент для русскоговорящих студентов и, наконец, подкрепление полученных заключений примерами тренировочных упражнений. Все это - задачи, которые необходимо решить в процессе исследования частотных типов ошибок русскоговорящих студентов в английском письме, выявления их причин и интегрирования результатов в процесс преподавания иностранного языка путем разработки специфицированных тренировок (практических упражнений и разъяснений), причем именно для русскоязычных студентов, изучающих английский язык. Так и можно сформулировать первую цель данной дипломной работы.

Вторая часть исследования посвящена улучшению непосредственно самой работы корпуса REALEC. Она состоит в сравнении разметки, выполненной специалистами, с той, которую сделали непрофессионалы. Под первыми здесь подразумеваются люди, хорошо знакомые с английским языком и с его преподаванием, а соответственно, и с тем, что за ошибки встречаются на письме, как их идентифицировать, размечать и как исправлять. Вторыми же условно назовем студентов и вообще всех тех, кто не столь хорошо ориентируется в данной области или просто не имеет достаточного опыта. Для того, чтобы реализовать данную задачу, сперва надо было решить другую, более практическую - а именно самостоятельно ввести в корпус 120 сочинений и разметить их. Таким образом, а также путем добавления к этим 120 работам 342 уже размеченных ранее - также сделанных студентами, которые участвовали в эксперименте на эту тему - мы получим «непрофессионально размеченную базу» в дополнение к уже имеющейся «профессиональной». Последняя содержит свыше 400 эссе, размеченных преподавателями НИУ ВШЭ. Следующей задачей являлся анализ полученных данных, выявление основных несходств в разметках, сделанных разными людьми и, в результате, дополнение инструкций для работы с корпусом подробностями, которые необходимы для максимальной унификации разметок. Предполагается уточнить, прояснить или дополнить места, которые недостаточно подробно описаны, и следствием этой неэксплицитности является тот факт, что каждый аннотирующий размечает такие случаи на свое усмотрение. Собственно, последнее и является основной целью второй части данной дипломной работы - улучшение инструкции для работы в REALEC. Эта цель вплетается, тем не менее, в более глобальную, над которой работает уже гораздо больше человек: повышение качества работы корпуса REALEC, удобства его использования и его состоятельности как поля для научных наблюдений.

В заключение следует упомянуть, какими именно методами было осуществлено выполнение данной работы. В первой части, посвященной исследованию частотных ошибок и посильному вкладу в преподавание иностранного языка, сбор статистики производился вручную и с использованием автоматического оснащения корпуса REALEC. Та часть результатов, которая не может быть представлена в виде текстовых заключений и рекомендаций (а именно - практические упражнения для тренировки проблемных мест), будет вывешена на сайте REALEC и доступна для прохождения в режиме онлайн. В настоящий момент она содержится на платформе http://onlinetestpad.com/ru-ru/Default.aspx, адрес каждого тренажера отдельно мы приводить не будем, их все можно найти через поиск по сайту, введя запрос «Хромаленкова» в соответствующее окошечко в правом верхнем углу. В процессе же выполнения второй части данной дипломной работы (а именно улучшения инструкций в помощь аннотирующим корпус) разметка 120 собственноручно введенных эссе выполнялась, разумеется, также вручную с использованием существующей в данном корпусе системы тэгов - так делаются все разметки в REALEC. Во время выполнения данной разметки производилось самонаблюдение за тем, в каких именно местах инструкция не проясняет возникающую неоднозначность, как именно размечать ошибку. По окончании разметки она была исправлена экспертом, и на сравнении двух вариантов предложенных разметок были выявлены не вполне проясненные инструкцией места. Итоговые, исправленные варианты инструкции также можно найти на сайте REALEC. И упражнения, и все исправления к инструкции приводятся в приложениях к данной работе (Приложение 1… и Приложение 2…).

В процессе всей дипломной работы - а точнее, всей ее аналитической части - я консультировалась также с научными трудами других лингвистов, и, таким образом, рассуждения в данной работе не взяты «из воздуха», а подкреплены другими исследованиями. В частности, широкий обзор научной литературы можно найти в п. 2 (Исследование проблемных областей и подготовка тренажеров).

На этом мы переходим к основной части нашего исследования - подробному описанию проведенной работы и анализу результатов.

1. Исследование проблемных областей и подготовка тренажеров

Итак, в первой части нашей работы нам необходимо было достичь некоторого практического результата, а именно выяснить, какие области письменного английского являются наиболее затруднительными для русскоговорящих студентов и как можно привлечь внимание к проблемным областям, предложив студентам способ их дополнительной отработки. Для начала взглянем на собранную статистику:

Таблица 1. Частотность типов ошибок согласно REALEC

Тип ошибки

Частотность данного ярлыка

Частотность данного ярлыка и всех вложенных в него

1. Punctuation

240

240

2. Spelling

235

235

3. Grammar

2

1659

3.1. Determiners

1

574

3.1.1. Articles

29

509

3.1.1.1. Choice of articles

441

441

3.1.1.2. Form of articles

39

39

3.1.2. Choice of determiners

57

57

3.1.3. Form of determiners

7

7

3.2. Quantifiers

0

11

3.2.1. Choice of quantifiers

8

8

3.2.2. Form of quantifiers

3

3

3.3. Verbs

10

435

3.3.1. Tense

5

262

3.3.1.1. Choice of tense

201

217

3.3.1.1.1. Sequence of tenses

9

9

3.3.1.1.2. Tense choice in conditionals

7

7

3.3.1.2. Tense form

36

40

3.3.1.2.1. Negative form

1

1

3.3.1.2.2. Tense form in conditionals

3

3

3.3.2. Voice

1

28

3.3.2.1. Choice of voice

22

22

3.3.2.2. Voice form

5

5

3.3.3. Modals

0

20

3.3.3.1. Choice of modals

12

12

3.3.3.2. Modals form

8

8

3.3.4. Verb pattern

7

87

3.3.4.1. Intransitive verb

1

1

3.3.4.2. Transitive verb

23

25

3.3.4.2.1. Reflexive verb

2

2

3.3.4.2.2. Verb with as

0

0

3.3.4.3. Ambitransitive verb

0

0

3.3.4.4. Two verbal forms in a row

0

15

3.3.4.4.1. Verb + Infinitive

5

7

3.3.4.4.1.1. Verb + Object/Addressee + Infinitive

2

2

3.3.4.4.1.2. Verb + whether + Infinitive

0

0

3.3.4.4.2. Verb + Gerund

2

2

3.3.4.4.2.1. Verb + Preposition + Gerund

0

0

3.3.4.4.2.1.1. Verb + Object/Addressee + Preposition + Gerund

0

0

3.3.4.4.3. Verb + Infinitive OR Gerund

0

2

3.3.4.4.3.1. Inf/Ger - no difference in meaning

1

1

3.3.4.4.3.2. Inf/Ger - different meanings

1

1

3.3.4.4.4. Verb + Bare Infinitive

2

4

3.3.4.4.4.1. Verb + Object/Addressee + Bare Infinitive

2

2

3.3.4.4.4.2. Infinitive Restoration Alternation

0

0

3.3.4.4.5. Verb + Participle

0

0

3.3.4.4.5.1. Get + Participle

0

0

3.3.4.4.6. Complex-object verb

0

0

3.3.4.4.7. Verbal idiom

0

0

3.3.4.5. Prepositional verb

20

29

3.3.4.5.1. Transitive phrasal verb

0

0

3.3.4.5.2. Transitive prepositional verb

7

7

3.3.4.5.3. Double-object prepositional verb

1

1

3.3.4.5.4. Double-prepositional phrasal verb

1

1

3.3.4.6. Dative verbs

6

6

3.3.4.7. Verb followed by a clause

0

4

3.3.4.7.1. Verb + that + Clause

3

3

3.3.4.7.2. Verb + if/whether + clause

0

0

3.3.4.7.3. Verb + that + Subjunctive clause

0

0

3.3.4.7.4. Verb + it + Conj + Clause

1

1

3.3.5. Participial construction

4

4

3.3.6. Infinitive construction

23

23

3.3.7. Verb + Adjective

1

1

3.3.8. Verb + Adverb

0

0

3.4. Nouns

3

129

3.4.1. Countable/uncountable

14

14

3.4.2. Prepositional noun

15

15

3.4.3. Possessive form of a noun

24

24

3.4.4. Noun as an attribute

1

1

3.4.5. Noun + Infinitive

4

4

3.4.6. Noun number

67

68

3.4.6.1. Collective noun

0

0

3.4.6.1.1. Adjective as a collective noun

1

1

3.5. Prepositions

163

163

3.6. Conjunctions

7

16

3.6.1. and/or/their synonyms

4

4

3.6.2. constrast conjunction

2

2

3.6.3. concession conjunction

0

0

3.6.4. causation conjunction

3

3

3.7. Adjectives

2

13

3.7.1. Comparative degree of adjectives

2

2

3.7.2. Superlative degree of adjectives

0

0

3.7.3. Prepositional adjective

7

7

3.7.4. Adjective + Infinitive

2

2

3.8. Adverbs

1

5

3.8.1. Comparative degree of adverbs

2

2

3.8.2. Superlative degree of adverbs

0

0

3.8.3. Prepositional adverb

0

0

3.8.4. Adverbial modifier

2

2

3.9. Numerals

0

0

3.9.1. Choice of numerals

0

0

3.9.2. Form of numerals

0

0

3.10. Pronouns

4

22

3.10.1. Personal pronouns

11

11

3.10.2. Reflexive pronouns

2

2

3.10.3. Demonstrative pronouns

5

5

3.11. Agreement

0

96

3.11.1. Agreement - Animacy

2

2

3.11.2. Agreement - Number

78

78

3.11.3. Agreemant - Person

16

16

3.12. Word order

35

90

3.12.1. Standard word order

51

51

3.12.2. Emphatic shift

3

3

3.12.3. Cleft sentence

0

0

3.12.4. Interrogative word order

1

1

3.13. Incomplete sentence

6

6

3.13.1. Exclamation

0

0

3.13.2. Title structure

0

0

3.13.3. Note structure

0

0

3.14. Conditionals

1

1

3.14.1. Choice of conditionals

0

0

3.14.2. Form of conditionals

0

0

3.15. Attributes

1

60

3.15.1. Relative clause

1

57

3.15.1.1. Defining relative clause

37

37

3.15.1.2. Non-defining relative clause

16

16

3.15.1.3. Coordinate relative clause

3

3

3.15.2. Attributive participial construction

2

2

3.16. Parallel constructions

22

22

3.17. Negation

7

7

3.18. Comparative construction

7

7

3.18.1. Numerical comparison

0

0

4. Vocabulary

7

740

4.1. Word choice

104

659

4.1.1. Choice of lexical item

176

218

4.1.1.1. Words often confused

42

42

4.1.2. Choice among synonyms

234

234

4.1.3. Choice of a part of lexical item

48

103

4.1.3.1. Absense of certain components of a collocation

31

31

4.1.3.2. Redundant word(s)

24

24

4.2. Derivation

3

74

4.2.1. Conversion

1

1

4.2.2. Formational affixes

1

10

4.2.2.1. Formational suffix

8

8

4.2.2.2. Formational prefix

1

1

4.2.3. Confusion of categories

60

60

5. Discourse

6

595

5.1. Referential device

1

76

5.1.1. Lack of referential device

17

17

5.1.2. Dangling reference

2

2

5.1.3. Redundant reference

15

15

5.1.4. Wrong choice of referential device

41

41

5.2. Coherence

52

108

5.2.1. Incoherent articles

1

1

5.2.2. Incoherent tenses

10

11

5.2.2.1. Incoherent tenses in conditionals

1

1

5.2.3. Incoherent pronouns

4

4

5.2.4. Linking device

3

40

5.2.4.1. Incoherent conjunction

9

9

5.2.4.2. Incoherent introductory unit

15

15

5.2.4.3. Lack of connective tool

13

13

5.3. Inappropriate register

17

17

5.4. Absence of a component in clause or sentence

100

100

5.5. Redundant component in clause or sentence

157

157

5.6. Tautology

18

18

5.7. Absence of necessary explanation or detail

113

113

Полужирным шрифтом выделены показатели для 5 корневых, самых общих типов ошибок: пунктуация, правописание, грамматика, лексика и дискурс. По частотности они располагаются, как видно из таблицы, следующим образом:

1. Грамматика (1659 ошибок)

2. Лексика (740 ошибок)

3. Дискурс (595 ошибок)

4. Пунктуация (240 ошибок)

5. Правописание (235 ошибок)

Такой результат был отчасти предсказуем: лексика и особенно грамматика известны как самые главные области, на отработку которых направлено подавляющее большинство учебных пособий, а на подробное объяснение - множество справочников, грамматик, словарей и других материалов. На них традиционно делается акцент при преподавании иностранных языков. Однако, ошибки в пунктуации и правописании слов неожиданно обогнала и встала на третье место категория, суть которой знакома стороннему наблюдателю, вероятно, не так хорошо. Дискурс - наука, а точнее, подраздел лингвистики - изучает процесс и результат языковой деятельности в целом, способ выражения мысли как таковой, в общем, интересуется языковыми единицами «наибольшего, потенциально неограниченного объема» (Stubbs 1983). Организация текста, его связность, полнота, согласованность фраз и многое другое - вот, что попадает в фокус внимания данной дисциплины. Не правда ли, вероятность того, что материалы для отработки данной области будут включены в курсы и учебные пособия по изучению некоторого иностранного языка, ничтожно мала? А между тем ошибки в ней допускаются в два раза чаще, чем в тех же пунктуации и правописании слов - при этом последние две области отрабатываются наравне с уже упомянутыми выше грамматикой и лексикой в достаточном количестве. Казалось бы, из последнего факта можно сделать вывод, что ошибки в области дискурса являются наименее распространенными и не вызывают у обучающихся проблем (и это, можно сказать, было нашей нулевой гипотезой); между тем из собранной нами статистики отлично видно, что это не так. И, раз уж мы столкнулись со своего рода маленьким открытием и нарушением стереотипа, мы сузим наше дальнейшее исследование именно до этой области - области дискурсных ошибок. Едва ли данная дипломная работа могла бы представлять интерес, если бы была каплей в море методик отработки грамматики и лексики, она, скорее всего, не несла бы ничего инновационного; в то же время мы обнаружили категорию ошибок, которая неожиданно оказалась в разы более частотной, чем можно было предположить; в этой области сделано пока очень мало, и именно поэтому мы попробуем предложить свой способ предотвращения как раз дискурсных ошибок.

Для начала разберемся, что такое дискурс вообще, какие области в него входят, как на эту проблематику смотрит современная лингвистика, и что из этого наиболее актуально в нашей ситуации «L1 - русский, L2 - английский» (данные об актуальности мы вновь возьмем из статистики).

Итак, понятие дискурса близко к понятиям речи, текста и коммуникации в целом, но все же не соответствует полностью ни одному из них, а находится на их пересечении. Как уже упоминалось выше, можно сказать, что интерес здесь представляет и процесс языковой деятельности-то есть построения мысли, - и выбор формы ее выражения, то есть результат, готовый текст, а также все, что связывает эти компоненты языковой деятельности. Надо сказать, что немаловажную часть дискурсных исследований занимает исследование устной речи - или так называемого устного модуса, однако, мы сразу оставим в стороне эту область и рассмотрим то, что относится к непосредственно интересующему нас дискурсу письменной речи.

Наиважнейшими элементами коммуникации являются, разумеется, ее участники - порождающий речь и понимающий ее. Важными они являются еще и потому, что порождающий строит свою речь таким образом, чтобы донести мысль до понимающего с максимальной точностью; а для этого ему необходимо иметь в голове так называемую модель адресата, то есть представлять себе своего реципиента, конкретного (напр. получателя личного письма) или обобщенного (напр. свою целевую аудиторию читающих). Самое важное здесь-то, какие знания имеются у адресата и какие элементы информации и значений пишущий может оставить за кадром (то есть, о чем может «умолчать») без осложнения понимания текста. А «умалчивать» приходится так или иначе все время, потому что в противном случае текст окажется насыщен избыточной информацией и также станет неудобен или даже непригоден к восприятию. Для изучения этого момента выделена даже целая область - прагматика. Правильно построенная речь должна отвечать математическому критерию «необходимо и достаточно». Лингвистический аналог этого принципа - принцип кооперативности Грайса (Grice 1975), или принцип экономии. «Необходимость и достаточность» можно нарушить двумя путями: не соблюсти «необходимость» - (1) не употребив значимых в речи элементов или (2) не передав ту информацию, которая не является сама собой разумеющейся для читателя и, таким образом, вызвав недопонимание. Кроме того, нарушается «достаточность», если (3) насытить текст излишними компонентами, отвлекающими читателя от основной информации или вовсе сбивающими его с толку, запутывающими. Первому (1) типу ошибки в REALEC присвоен ярлык «Absence of a component in clause or sentence», второму (2) - «Absence of necessary explanation or detail», а третьему - «Redundant component in clause or sentence». И частотность их среди всех 595 дискурсных ошибок следующая:

1. Redundant component in clause or sentence (157 ошибок)

2. Absence of necessary explanation or detail (113 ошибок)

3. Absence of a component in clause or sentence (100 ошибок)

Как мы видим, это больше половины всех ошибок в категории «Discourse». Сложности и возможные причины здесь состоят в следующем:

1. Причины лишних компонентов в клаузах или целых предложениях «Redundant component in clause or sentence» могут крыться в недостаточном знании L2, непродуманности логики повествования (возможно, слабой концентрации, невнимательности), интерференции с L1, в котором избыточные для L2 конструкции являются обязательными, употреблении устных конструкций и т.п.

Невнимательность и ее следствие - нелогичность - может проявляться, допустим, в повторениях одной и той же информации:

Another one is creating a production plan at the stage of production research and design by the producers.

(В данном примере речь уже идет о некотором производстве, поэтому в третий раз повторять, что оно выполняется производителями, явно излишне, более того, никто другой созданием производственного плана не занимается, так что добавление агента несет нулевую информацию.)

Интерференция с L1 может проявляться в таких конструкциях, как:

According to the information, in 1981 Australian mothers aged 40-44 years were only slightly more likely to have had two children than three, four or more children.

(в английском языке слово «years» не потребляется после конструкции «aged + Numeral», ошибка является следствием аналогии с русским выражением «быть скольких-то лет»)

А такие конструкции, как та, что приведена ниже, допустимы только в устной / неофициальной речи:

So, Demosthenes was he born communicator or not?

«So, Demosthenes» - так называемый предваряющий топик, он обозначает дальнейший предмет разговора, вводит нового референта для определенного количества последующих клауз; однако в академическом письме предваряющие топики не употребляются.

Поскольку данный тип ошибки является самым распространенным среди всех ошибок на дискурс, само собой разумеется, он явился одним из тех, для которых были изготовлены прототипы тренажеров. При подготовке последних использовались реальные ошибочные и безошибочные примеры употреблений из REALEC и BNC (British National Corpus) соответственно (как и для всех прочих типов ошибок, и об этом мы впредь не будем повторять). Самым логичным типом тренажеров - и единственным возможным для изготовления и прохождения в силу специфики «Redundant component in clause or sentence» - является так называемый поиск ошибки, то есть поиск среди множества предложений тех, в которых присутствует излишний компонент. Они и представлены в Приложении 1 под соответствующим подзаголовком.

2) Причиной ошибок, состоящих в недостаточно поясненной, неочевидной из контекста информации - «Absence of necessary explanation or detail» - как правило, является невнимательность, непродуманность логики или переоценка знаний информации реципиентом, например:

The victor gets to return home, and the victor's district is showered with gifts - namely food.

(В данном предложении речь не о том, что победитель состязания непременно возвращается домой, а о том, что он получает на это право. Это в значительной степени по-разному описывает суть победы и приза. Я (как, очевидно, и аннотирующий) знаю, о чем в точности ведет речь автор, так как знакома с содержанием книги «Голодные игры», о которой ведется речь в данном предложении. Однако факт такого знакомства аудитории не может являться для автора простого экзаменационного эссе очевидным; знания реципиента оценены неправильно или просто по невнимательности не оценилось и не продумалось, так что отсутствие слова «right» следует рассматривать как ошибку указанного выше рода.

С точки зрения такое явление представляет нарушение максимы информативности, являющейся одной из четырех максим, на которых строится уже упоминавшийся выше принцип кооперативности Грайса (Grice 1975). Автор предложения неправильно оценивает уровень неэксплицитных знаний (то есть знаний «по умолчанию», не полученных из текста) реципиентов - или попросту не следит за тем, чтобы производимое им предложение заполняло необходимые пробелы в этих знаниях.

Сделать упражнения для отработки такого типа дискурсных упущений крайне сложно. Во-первых, без контекста, то есть без предоставления сразу значительных отрывков текста невозможно дать понять, о чем ведется речь, а во-вторых, даже при наличии контекста выполняющему задание неоткуда получить представление, что именно упущено, так как внешне такие предложения, как правило, выглядят правильно, и лишь тонкий анализ их контекста и знание упущенной информации способны показать неточность. Таким образом, тренировать требовалось бы не владение английским языком, а кругозор обучающихся. Поэтому мы лучше перейдем к намного более поддающейся тренировке области - «Absence of a component in clause or sentence», а здесь ограничимся лишь настоятельной рекомендацией авторам текстов лучше представлять себе свою аудиторию и внимательнее следить за тем, какую информацию они передают, а какую - возможно, напрасно - оставляют за кадром.

3) Среди причин отсутствия необходимых компонентов в клаузах или целых предложениях («Absence of a component in clause or sentence») можно назвать почти все то же, что и для «Redundant component in clause or sentence». Такое сходство именно с этим подтипом можно объяснить тем, что ошибки этих двух типов апеллируют к одному и тому же - правильному с точки зрения конкретного языка построению фраз - только в одном случае со стороны избыточности, а в другом - недостаточности.

Итак, примером недостаточности, вызванной недостаточным знанием L2, может являться следующее предложение:

This means that the tendency of having two children remained for 25 years.

В русском языке глагол «сохраниться» может быть употреблен как без определения, так и с - «сохраниться каким-либо», поэтому здесь не имеет места интерференция, как можно было бы подумать. Дело в том, однако, что английский глагол «to remain» в том значении, которое необходимо здесь, обязательно требует после себя дополнения - напр. «remain the same», а без дополнения глагол значит «держаться, а потом исчезать», и особенности данной лексемы студент, очевидно, не знает достаточно хорошо. Тем не менее, эта ошибка не относится к случаям неправильного лексического выбора или неправильного представления о грамматической модели управления глагола remain; ошибка состоит в нарушении логики, заключающемся в отсутствии лексемы, меняющей возможность использования глагола. Для сравнения - в следующем предложении подобной ошибки нет:

The negative public sentiment surrounding Vietnam Veterans remained for years.

Невнимательность может служить причиной ошибок вроде:

You can find any kind of review blogs, from reviewing travelling experience to shampoos or cookies.

После предлога «to» требуется конструкция с другим герундием, в противном случае «шампуни и печенье» оказываются приравнены к блогам с оценкой, например:

from reviewing travelling experience to discussing shampoos or cookies.

Но главная причин ошибок в данной области - интерференция с L1:

The main goal of the Hunger Games to survive.

В русском языке глагол-связка в настоящем времени опускается, а в английском такого быть не может.

Таким образом, на основании того, что данную категорию ошибок тренировки, а также потому, что она является четвертой по частотности категорией среди всех ошибок в категории дискурса, для нее мы также предложили прототипические тренировочные упражнения - причем сразу четырех разных видов. Их также можно найти в Приложении 1 под соответствующим подзаголовком.

Итак, а чем же еще занимается дискурс? Раз уж мы сказали, что это наука, занимающаяся наиболее крупными языковыми единицами, и в том числе текстами, логично предположить, что ее интересуют принципы построения текстов и то, что делает их таковыми-то есть что отличает их от простого набора предложений. Одна из основных характеристик текста - это именно связность. Поговорим о связности подробнее.

Вообще существует два понимания связности. Первое относится к ней как к однозначной характеристике, то есть текст либо связный, либо нет. Некоторые же ученые, такие, как Т. Гивон (Givon 1990), предлагают более подробное описание и выделяют разные степени связанности и ее типы. Последние, в частности, и представлены именно у Гивона: референциальная (сохранение основных референтов, или, грубо, героев или тем текста), локативная (связность всего, что характеризует место / местами действия), темпоральная (логичная последовательность событий) и событийная (направленность на описание некоторого/ых события/й) связность текста - все это разные составляющие, пусть одного целого, но описываемые по отдельности. Причем описываемые так, что, в контексте нашего исследования, уже можно представить, как именно и на что здесь можно сделать ошибки. Например, если взглянуть на понятия основной линии и фона, относящиеся к темпоральной связности, и их особенности: первое характеризует клаузы, которые в повествовательном дискурсе связаны отношением «последовательность». Поясним: основная линия повествования, как правило, описывается независимыми клаузами, в то время как зависимые создают и описывают фон. Хотя и здесь бывают исключения, например, временные придаточные:

Он переворачивал комнату вверх дном несколько раз, но только когда уже решил сдаться и поручить искать тайник другим, наконец, понял секрет.

Как же здесь не запутаться при построении текстов на иностранном языке?

Выделяется в науке о связности текста и еще одна непростая область: та, что занимается так называемыми прагматическими маркерами, выделенными в свое время Б. Фразером (Fraser 1999).

Прагматические маркеры - это, условно говоря, прагматическая составляющая высказывания; есть собственный смысл высказывания, а есть его контекстное оформление (как раз такие маркеры). Поясним это на их подвидах.

Так называемые базовые маркеры обычно указывают характер основного сообщения. Сюда, например, относятся маркеры наклонения и перформативы типа «обещаю, …»

Маркеры-комментарии дают основной мысли оценку (например, «к счастью / к несчастью»), смягчают ее (например, «если не ошибаюсь, …»), указывают источник информации (например,» говорят, …») или характеризуют ее с эвиденциальной стороны (напр. «возможно, …»)

Параллельные маркеры помогают автору высказывания взаимодействовать с адресатом. Для этой цели служат, например, обращения, а также слова солидарности и неудовольствия («проклятый», «какого черта» / «друг мой», «говоря между нами»).

И, наконец, собственно дискурсивными маркерами называют слова или словосочетания, «кодирующие значения, отличные от пропозиционального содержания (или от истинной оценки)». Такое определение было предложено А.А. Кибриком (Кибрик 2008): дискурсивные маркеры также, как другие, не меняют содержания самого высказывания, а лишь служат для того, чтобы вплести его в общий контекст под тем или иным углом. Но указывают они, например, такие вещи, как смену топика (например, «кстати говоря», «между прочим»), могут подчеркивать контраст («но», «хотя»), вводить детализацию («иными словами», «в частности», «или», «и»), маркировать вывод («соответственно», «таким образом») и др (Fraser 1999).

Конечно, данную классификацию прагматических маркеров нельзя считать исчерпывающей или же единственной. В связи с их многообразием, многофункциональностью некоторых из них и общей факультативностью, а также слабой выводимостью из собственно предикативных структур предложений легко представить себе такую область «ошибкоопасной». Так оно и есть в исследуемом корпусе: ошибки на связность («Coherence») являются третьими по распространенности среди всех ошибок дискурсного характера. При этом, несмотря на то, что в дереве типов ошибок REALEC приведена их классификация, популярность более подробных ярлыков сравнительно мала (56 ярлыков из 108, относящихся к «Coherence»). То есть, сам упомянутый ярлык появлялся в разметках примерно в половине случаев (52 раза), в то время, как в других категориях счет столь общих ярлыков шел лишь на единицы. И поэтому при подготовке упражнений на связность мы учитывали сразу все подтипы, а также их пересечения и объединения, так как именно на них часто возникают неточности. Более того, классификация в подклассе «Coherence» в корпусе REALEC не является исчерпывающей - порой нужного подтипа из более подробных просто невозможно найти, - поэтому такое преобладание использования аннотаторами общего ярлыка вместо более конкретных. Как следствие такого наблюдения, мы рекомендуем создателям REALEC задуматься над вопросом создания тренажеров и для размечающих. При помощи них они бы тренировались отличать друг от друга сложные и «мелкие» подтипы ошибок «Coherence». Это хорошо было бы сделать не только для данной области; это и в принципе кажется удачной идеей в целях повышения качества разметок и их унификации. Однако, если задача разрабатывать такие тренажеры выходит за рамки данной дипломной работы, то наши предложения по поводу того, как можно помо...


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.