Определение исследовательских задач для системы разметки устного английского учебного корпуса
Определение понятия "корпусная лингвистика" как эффективного современного подхода к изучению языка. Обзор существующих исследований на основе корпусных данных. Анализ коллекций текстов письменной затранскрибированной устной речи у людей, изучающих язык.
Рубрика | Иностранные языки и языкознание |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 03.07.2017 |
Размер файла | 65,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Правительство Российской Федерации
Федеральное государственное автономное образовательное учреждение
высшего образования
Национальный исследовательский университет
«Высшая школа экономики»
Выпускная квалификационная работа
Определение исследовательских задач для системы разметки устного английского учебного корпуса
Емельянова Елена Анатольевна
Введение
В настоящее время корпусная лингвистика является одним из наиболее эффективных и современных подходов к изучению языка. Данный метод позволяет исследовать язык в практическом применении, анализировать типологические и диахронические различия и наблюдать тенденции и изменения внутри языка.
Во множестве исследований демонстрируется связь между первым (родным) языком и вторым (изучаемым) языком в плане того, что первый язык предопределяет способность человека усваивать различные аспекты иностранного языка. Эффективность усвоения будет выше, если аналогичная конструкция существует в языке, носителем которого человек является. И, напротив, ошибки возникают, если явление абсолютно новое для изучающего. Эта идея лежит в основе корпусного подхода к анализу стратегий обучения иностранных языков.
Являясь одним из направлений корпусных исследований, учебные корпуса служат удобным и наглядным инструментом для анализа усвоения языка. Они позволяют исследовать различные языковые схемы, которые используют студенты в своих ответах. Поэтому корпусный подход позволяет обнаружить важные аспекты в использовании речи второго языка, что может быть полезным для исследователей и преподавателей (Gablasova, et al., 2014).
Учебные корпуса содержат коллекцию текстов письменной или затранскрибированной устной речи, порожденной людьми, изучающими язык. Основная задача в рамках создания учебных корпусов состоит в нахождении и разметке ошибок, допущенных изучающими язык. Это означает, что, в отличие от стандартных языковых корпусов, в учебных корпусах применяется система тэгов, определяющих типы ошибок, а не система тэгов с грамматической характеристикой слов. К ним могут относиться ошибки выбора и использования слов, словообразовательные, грамматические и морфосинтаксические ошибки. Полученные данные затем анализируются на предмет сходств и различий в усвоении различных аспектов изучаемого языка в зависимости от родного языка изучающего.
Учебные корпуса также справляются с недостатками и ограничениями традиционного анализа ошибок (Error Analysis). Впервые идея анализа ошибок при усвоении второго языка возникла в 70х годах прошлого века, а до того ошибки рассматривались как нечто нежелательное, но неизбежно возникающее при изучении иностранных языков (Ellis, 1994). Позже возникла идея, что анализ ошибок позволяет описать процесс овладения языком, помогая тем самым учителям, исследователям и самим обучающимся (Corder, 1981). Учителя получают информацию о степени успешности усвоения системы языка и о том, каким аспектам следует уделить больше внимания в процессе обучения. Исследователи обнаруживают стратегии и методы, используемые студентами в процессе обучения. Обучающиеся же получают возможность увидеть допускаемые ими и другими студентами типы ошибок. В исследовании Ellis (Ellis, 1994) выделяется четыре этапа анализа ошибок: обнаружение ошибки, ее описание, объяснение и оценка. В результате перехода от ручного анализа ошибок к корпусным исследованиям удалось создать удобную систему, пригодную для обработки больших баз данных, выделить большинство ошибок с высокой вероятностью появления в процессе усвоения языка изучающими с определенным родным языком, а также проводить статистические подсчеты.
При традиционном подходе к изучению иностранного языка преподаватели и студенты полагаются, как правило, на три основных источника информации: грамматики и справочники, книги для изучения иностранных языков и собственную интуицию. Обычно руководства по практическому использованию языка в грамматиках составляются авторами и основаны на их восприятии языка. Однако в некоторых случаях языковая интуиция авторов учебных пособий может значительно отличаться от корпусных наблюдений, которые дают более полное представление о том, какие слова и конструкции используют носители языка в спорных случаях. Поэтому помимо структурного описания языка и интуиции, сейчас эти сведения могут быть дополнены эмпирическими наблюдениями, полученными из корпусных данных. Но для обучения языкам крайне важно не только понимать, как используют язык носители, но и видеть наиболее типичные ошибки при изучении языка. Таким образом, крупномасштабные исследования, основанные на использовании текстов носителей языка и учебных корпусов, позволяют получить более точные сведения об использовании языка и наиболее часто совершаемых ошибках .Например, в работе Biber (Biber, 1999) приводится пример неточных сведений о частотности употребления настоящего длительного времени в устной речи преподавателями английского как иностранного и авторами учебников . При том что по статистике корпусов типа BNC или COCA (Biber, D., et al., 1999, стр. 461) простые времена используются в разговорной речи носителей английского языка примерно в двадцать раз чаще, по результатам данных учебных корпусов больших объемов видно, что студенты склонны чрезмерно широко применять длительые е времена в своих ответах. Авторы объясняют это явление недостаточно точными сведениями в учебниках и низкой компетенцией преподавателей.
Многие исследователи, изучающие процесс усвоения иностранных языков, отмечают недостатки использования ограниченного объема эмпирических наблюдений. К примеру, Gass и Selinker (Gass, 2001) отмечают, что в долгосрочных исследованиях, в которых, как правило, задействовано небольшое количество участников, сложно определить, применимы ли полученные данные к широкому кругу изучающих, либо только непосредственно к тем, чьи результаты были изучены. Также MacWhinney в работе о создании детского учебного корпуса пишет, что проведение исследований на небольших или нерепрезентативных выборках может приводить к неверным выводам (MacWhinney, 2000). Поскольку сбор данных о детской речи очень трудозатратный, исследователи часто не используют практические данные, которые подтвердили бы теорию, либо ограничиваются несколькими примерами, иллюстрирующими теоретические выводы. Так, ранние утверждения о пропуске детьми местоимений, основанные на нескольких примерах, были позже опровергнуты на большом объеме затранскрибированной речи. Так же, как и сбор данных о детской речи, информация о становлении речи изучающих иностранный язык может быть труднодоступна, поскольку необходима транскрипция аудиозаписей или ввод текстов, написанных вручную. Однако именно сбор больших объемов данных обеспечивает репрезентативность и позволяет сделать обобщенные выводы, применимые к большим группам изучающих язык (MacWhinney, стр. 3).
Задачи исследования
Исходя из вышесказанного, сведения, полученные благодаря анализу учебных корпусов, используются в различных практических областях. К примеру, они могут способствовать созданию новых стратегий обучения иностранным языкам, поскольку анализ языковой компетенции позволяет оценить эффективность существующих учебных материалов и улучшить их. Также учебные корпуса находят применение в лексикографии и в машинной обработке языковых текстов. корпусный лингвистика язык
Материалом для моей работы послужили ответы русскоязычных студентов 2 курса Школы лингвистики НИУ ВШЭ при подготовке к устной части экзамена, по формату совпадающего с экзаменом IELTS, Изучение устных ответов студентов на вопросы экзаменационного типа было предпринято с целью создания системы аннотации, которая позволяла бы размечать типичные и особые ошибки, совершаемые изучающими английский язык, а также получать сведения о частоте различных видов ошибок. Конечной целью является создание аннотированного учебного корпуса, содержащего коллекцию транскрибированных текстов, порожденных носителями русского языка, изучающими английский язык. Разработка корпуса послужит основой для дальнейшего количественного и качественного исследования устных ответов. В то время как в литературе описаны разные типы учебных корпусов, отличительным признаком данного корпуса видится сосредоточение внимания исключительно на ошибках русских студентов, изучающих английский как иностранный, что позволит в деталях рассмотреть особенности усвоения английского языка при учете влияния родного языка изучающих - русского. Кроме того, необходимо скорректировать систему тэгов в связи с особенностями устной речи. Как будет продемонстрировано в дальнейшем, имеется мало сведений об овладении устной английской речью русскоговорящими студентами .
Поскольку создание устного корпуса предполагает транскрипцию аудиозаписей, целью работы является также создание унифицированной системы определения дискурсивных единиц, записи разнообразных дискурсивных элементов, таких как колебания, различные виды пауз и заполнители пауз.
Практическая задача создания корпуса состоит в том, чтобы на основе полученных данных улучшить стратегии обучения языка и помочь более успешно подготовиться к сдаче языковых экзаменов. Как было отмечено ранее, учебные корпуса имеют несколько основных применений в преподавании иностранных языков: определение трудностей, с которыми сталкивается конкретная группа обучающихся (например, носители определенного языка), понимание того, как происходит усвоение иностранного языка, и непосредственное использование учебного корпуса на занятии. Как будет продемонстрировано в следующей части, существующие работы подтверждают влияние родного языка на усвоение иностранного и демонстрируют использование корпусного анализа для улучшения стратегий обучения.
1. Обзор существующих исследований
Обзор корпусов
На сегодняшний день существует небольшое количество устных учебных корпусов. Корпуса могут различаться по множеству параметров, таких как тип разметки (тэги ошибок или частеречные тэги), системы классификации тэгов ошибок (дискурсивные, лексические, грамматические, фонетические и другие), способы транскрипции (в некоторых случаях применяется запись правильных форм слова), набор метаданных о говорящем и учет различных видов нелингвистических параметров. Изучение комбинаций данных признаков в корпусах обеспечивает лучшее понимание того, какие параметры будут наиболее полезны при создании нового корпуса. Ниже в данном разделе будут рассмотрены несколько крупных устных учебных корпусов и будут изучены подходы к их созданию.
Ланкастерский устный учебный корпус
Центр корпусного подхода к исследованию социальных наук (ESRC Centre for Corpus Approaches to Social Science (CASS)) занимается разработкой различных корпусов не только в лингвистических целях, но и для прикладного использования в общественных науках. Одним из проектов, разрабатываемых в настоящее время центром, является система ланкастерских устных учебных корпусов. Данный корпус является совместным проектом CASS Business School и лондонского Тринити-колледжа (международная площадка для проведения экзаменов, в том числе международных экзаменов по английскому языку ). Цель проекта - создание большого корпуса устной речи на основе экзаменационных ответов студентов, изучающих английский язык, с разными родными языками. Корпус предполагается использовать для различных исследовательских направлений, таких как усвоение второго языка, тестирование уровня владения иностранным языком, преподавание второго языка, составление учебных материалов, и других. Корпус составлен на основе устных ответов экзамена GESE, уровень владения варьируется от уровня B1 до уровня C2 по европейской системе уровней владения языком. Особое внимание в экзамене уделяется коммуникационным навыкам, где экзаменуемый активно взаимодействует с экзаменатором. Экзаменующиеся являлись носителями итальянского, испанского, китайского, индийского и русского языков из 9 стран. Возраст отвечающих варьируется от 9 до 72 лет. К настоящему моменту корпус содержит 3000000 слов, данные разделены на 3 уровня владения языком. Свободный доступ к материалам корпуса планируется открыть в 2017 году.
Корпус создается как исследовательский ресурс для изучения становления устной речи учащихся на разных уровнях овладения английским языком и доя предоставления данных о порождении речи в монологах и интерактивных заданиях. Предполагается создать несколько слоев разметки с возможностью поиска по различным лингвистическим и фоновым критериям. Предполагается создание синтаксической и морфосинтаксической разметки устного корпуса: разделение текста устной речи на отдельные единицы и их автоматическое распознавание; разметка морфосинтаксических и синтаксических структур; развитие способов измерения синтаксической сложности.
Учащимся помимо необходимости овладеть грамматикой и словарем второго языка необходимо также усвоить стратегии устной коммуникации. Так, в одном из исследований на данных ланкастерского устного корпуса сравнивались транскрипции более успешных и менее успешных ответов студентов среднего уровня, носителей итальянского или испанского. В результате было обнаружено, что более успешные студенты задают больше вопросов, в то время как менее успешные студенты используют в диалоге только утвердительные предложения и короткие фразы.
Данные корпуса позволяют увидеть различные стратегии, которые используют экзаменуемые для успешного ответа в устных заданиях. Таким образом, преподаватели на занятиях могут использовать эти признаки для обучения эффективной коммуникации. Были обнаружены (Taylor, 2016) следующие черты боле успешных ответов: стремление поддержать диалог с партнером по ответу с помощью вопросов, предложений, комментариев, на которые партнер может легко отреагировать; демонстрирование вовлеченности в диалог (okay, yes, uhu, oh, etc); уточнение того, насколько правильно был понять вопрос, перед ответом на него.
Традиционно обучение языку основывается на изучении грамматики и лексики, которые рассматриваются как два независимых навыка. Однако, все больше данных свидетельствуют о том, что для успешной коммуникации учащимся необходимо усвоить выражения и лексико-грамматические структуры. Другая ключевой аспект успешного устного ответа относится к прагматике, умению использовать стиль, уместный в конкретной ситуации. Корпусные данные помогают увидеть лексико-грамматические модели в примерах из реальных языковых данных и рассмотреть их уместность в экзаменационных ответах. На основе фрагментов из корпуса были составлены упражнения для работы в классе (Taylor, 2016).
В отличие от обычной транскрипции аудиозаписей, цель заключается не в записи грамматически правильных предложений, а в записи каждого произнесенного слова максимально точно, так, как оно было произнесено. Единственными знаками пунктуации в ланкастерском корпусе являются вопросительные знаки и апострофы. Сложность задачи состоит в том, что наше знание правил заставляет нас додумывать правильные конструкции, даже если они не были произнесены. Однако в случае сомнения произнесенное толкуется в пользу экзаменуемого и в транскрипт записывается правильная словарная форма.
Трудности могут представлять невнятно произнесенные окончания слов, такие слова как these/this, is/it's. Шумы на заднем фоне также создают дополнительные трудности для расшифровки текста. Поэтому в ланкастерский корпус была включена пометка <unclear> для случаев, когда текст разобрать не удается. По мнению создателей корпуса, в некоторых случаях это наилучшее решение, поскольку оно не вводит в заблуждение исследователей, работающих с корпусом. Относительно вопросительных предложений было принято решение, что важнее структура предложения, чем интонация (Brezina, 2016).
Мичиганский корпус академического устного английского языка
Мичиганский корпус академического устного английского языка (MICASE) содержит примерно 1.8 миллионов слов затранскрибированной речи, полученной из различных источников (лекции, обсуждения, семинары, интервью, презентации студентов, защиты диссертаций). Корпус включает в себя речь носителей английского и изучающих язык, информация о говорящем приводится в названии транскрипции. Все транскрипции записаны в орфографически правильной форме и не содержат разметки. Но при этом были сохранены колебания, филлеры, прерывания и другие речевые явления. В будущем, однако, планируется добавить частеречные тэги, леммы и дискурсивные характеристики. Некоторые лексические и грамматические сокращения (sorta, hafta, cuz) записаны в том виде, в котором были произнесены. Стандартная пунктуация не используется. Паузы различной длины обозначаются запятыми и точками. Вопросительный знак используется для обозначения фраз, которые выполняют функцию вопроса.
Корпус находится в открытом доступе и позволяет производить поиск транскрипций отдельных записей по параметрам транскрипции и говорящего. К характеристикам говорящего относятся: академическая роль (преподаватель, выпускник, студент, доктор, исследователь, другое), родной язык (английский - родной язык, английский - неродной язык, американский английский, другие варианты английского), родной язык (при неродном английском). Атрибуты транскрипции включают: тип мероприятия (консультация, коллоквиум, защита диссертации, интервью и другие), университетское подразделение (гуманитарные науки и искусство, биология и здоровье и другие), учебная дисциплина, академический уровень участника, уровень интерактивности мероприятия (монолог, обсуждение). Кроме того, возможен поиск по конкретным словам и коллокациям, при этом также можно выбрать перечисленные выше параметры.
Корпус ELISA
Корпус English Language Interview Corpus as a Second-Language Application (ELISA) основан на видео интервью, взятых у носителей английского языка. Корпус был создан в учебных целях, поэтому интервью затрагивают множество разнообразных тем. Транскрипция видеозаписей осуществлялась согласно правилам орфографии, также были убраны филлеры, колебания, повторения слов и информация о длине пауз. Сведения о синтаксических паузах и ошибках была включена в корпус. Это было сделано для удобства использования корпуса изучающими язык. Поиск в корпусе осуществляется по темам интервью и часто используемым грамматическим конструкциям, информация о которых дана в описании интервью. Таким образом, от остальных данный корпус отличается направленностью не на исследователей-лингвистов, а на пользователей, изучающих язык.
Японский устный учебный корпус
Японский учебный корпус (The NICT JLE Corpus) был создан в 2004 году национальным институтом информационных и коммуникационных технологий. Источником данных являются транскрибированные аудиозаписи, записанные во время экзамена The Standard Speaking Test. Данное тестирование было разработано в Японии и направлено на оценку уровня устного владения английским языком. Авторы заявляют, что экзамен может служить альтернативой стандартным письменным тестам. Корпус содержит 1281 документ и 1.2 миллиона слов.
В японском учебном корпусе существует два варианта разметки: дискурсивные тэги (для всех документов) и тэги ошибок (для части документов).
Дискурсивные тэги включают в себя структуру интервью, тэги профиля интервьюера, тэги различных речевых явлений: филлеры, повторения, самоисправления, наложения, и другие. Открывающий и закрывающий тэги ставятся перед началом речевого явления и после него. Примеры тэгов:
- самоисправление: <SC></SC>
- использование японских слов при ответе на английском: <JP></JP>
Система тэгов, описывающих ошибки, охватывает только грамматические и лексические ошибки. Каждый тэг состоит из трех компонентов: часть речи, грамматическое или лексическое правило и правильная форма. Тэги разбиты на категории по частям речи и включают в себя: ошибки в использовании существительных (словоизменение, число, падеж, исчислимость/неисчислимость, дополнение существительных, лексика), глаголов (словоизменение, несогласованность субъекта и глагола, форма, время глагола, вид и залог глагола, использование финитного/нефинитного глагола, отрицание, вопросительный порядок слов, дополнения глагола, лексика), модальных глаголов (лексика), прилагательных (словоизменение, использование сравнительной или превосходной степени прилагательных, несогласованность числа, количественные прилагательные, дополнения прилагательных, лексика), наречий (словоизменение, использование сравнительной или превосходной степени наречия, лексика), предлогов (дополнения предлогов, обычные и зависимые предлоги), артиклей, местоимений (словоизменение, несогласованность по роду или числу, падеж, лексика), союзов (лексика), относительных местоимений (падеж, лексика), вопросительных слов (лексика) и остальные типы ошибок (японский английский, коллокации, неправильный порядок слов, неизвестный тип ошибки, неясное произнесение) (Izumi, и др.).
К особенностям японского учебного корпуса можно отнести тот факт, что сведения о говорящем содержат уровень владения языком по девятибалльной шкале. Это позволяет проводить анализ и сравнения внутри выбранного языкового уровня. Кроме того, в корпусе существует подкорпус текстов, порожденных носителями языка, выполнявших аналогичные задания. Подкорпус дает возможность сравнивать речь носителей английского и носителей японского, которые изучают английский язык.
Создатели корпуса отмечают сложность создания системы тэгов, которые охватывали бы все возможные виды ошибок, поскольку ошибки изучающих язык сильно варьируюти включают в себя не только грамматические и лексические ошибки, но и неправильное произношение, дискурсивные ошибки и другие типы ошибок, связанные с коммуникативной составляющей языка. В созданной авторами системе тэги написаны в формате XML и состоят из трех частей: часть речи, морфологическое, лексическое или грамматическое правило, правильная форма. Сложности также возникают в процессе разметки ошибок, так как ошибки могут накладываться друг на друга, или одной ошибке может быть приписано несколько тегов. Для решения трудностей, связанных с разметкой ошибок, был выработан ряд правил, основной принцип которых - исправление ошибок с минимально возможным изменением структуры предложения (Izumi, и др.).
Кембриджский учебный корпус содержит коллекцию письменных ответов на кембриджские экзаменационные задания на знание английского языка (KET, PET, FCE, CAE, CPE, IELTS и другие). Корпус содержит тексты, написанные более чем 180000 студентами из 200 стран и говорящих на 86 языках в качестве родного языка. Информация о каждом студенте включает в себя сведения о первом языке, возрасте, поле, истории изучении языка. Эти сведения дают возможность разделить корпус на подкорпуса в зависимости, например, от возраста или уровня владения языком. В настоящее время корпус содержит 6 миллионов размеченных слов, при этом работа выполнялась лишь двумя людьми, что позволило избежать непоследовательности в выборе тэгов. Как и в японском корпусе, создатели обращают внимание на необходимость лишь аннотации и исправления ошибок, но не переписывания предложений полностью с целью создать совершенно правильные предложения.
Корпусные данные используются издательством Кембриджского университета в лексикографии для определения слов и конструкций, вызывающих наибольшие затруднения у изучающих английский язык.
Проект TOEFL 2000 Spoken and Written Academic Language (T2K-SWAL) Corpus был создан с целью изучения академического стиля текстов в экзамене TOEFL (Douglas Biber). Устная часть данного корпуса содержит как экзаменационные вопросы, так и ответы студентов на них. Записи, полученные в ходе сбора данных, были затранскрибированы и словам были присвоены грамматические тэги. При транскрипции текстов были использованы следующие правила:
, - короткая пауза или граница клаузы
. - граница предложения или завершающая интонация
? - вопрос или восходящая интонация
.. - длинная пауза (до 3 секнд)
… - очень длинная пауза (4 секунды или более)
() - сомнение в правильности формы слова
[] - комментарии внутри скобок
{ - начало высказвания, которое накладывается на предыдущее высказывание
Кроме того, необщепринятая форма записи использовалась для следующих слов: OK, cuz, yup, nope, mm, mhm, um, uh.
Одним из устных корпусов, содержащих речь студентов, изучающих английский язык, является корпус Louvain International Database of Spoken English Interlanguage (LINDSEI) (Huang, 2014). В корпусе представлены тексты носителей 11 языков: болгарского, китайского, нидерландского, французского, немецкого, греческого, японского, польского, испанского, шведского и тайваньского. Данные получены из ответов студентов в процессе неформального интервью и включают в себя речь интервьюеров и ответы изучающих. Несмотря на то, что при транскрибировании записывались грамматически правильные формы, создатели корпуса позволяют увидеть систему записи, отражающую особенности устной речи:
- знаки пунктуации не используются в корпусе для обозначения границ предложений или клауз.
- в диалоге наложение речи обозначается тэгом <overlap />, который вставляется в текст интервьюера и отвечающего в месте начала наложения.
При транскрипции в корпусе LINDSEI различаются три вида колебаний: паузы (заполненные и незаполненные), заполняющие слова (smallwords) и смешанная категория.
- короткие незаполненные паузы (длиной до 1 секунды), обозначаемые одной точкой, паузы средней длины (от 1 до 3 секунд) - две точки, и длинные паузы - три точки. Обозначения пауз могут находится в любом месте клаузы
- заполненные паузы включают в себя следующие вокализации и звуки: er, erm, uh, uhm, eh, em, er, erm, mm, uhu. Данные филлеры записываются в скобках
-колебаниями в корпусе считаются слова (smallwords): well, kind of, I mean, you know и другие. Однако данные слова могут быть использованы как способ заполнения паузы во время размышления над ответом, но также могут выполнять прагматическую функцию колебания
- к третьей категории (разное) относятся следующие речевые явления:растягивание слов или слогов (drawls) обозначается двоеточием после растягиваемого слога, например: to:. Усеченные слова обозначаются знаком =: f= forties; повторения, обозначаемые простым повторением слова
- неясно произнесенные отрывки, как и незаполненные паузы, различаются по длине и делятся на короткие (от звука до одного слова), средней длины (два слова), длинные (более двух слов) и обозначаются соответственно тэгами <X>, <XX>, <XXX>
- если расшифровщики аудиозаписи не уверены в правильности слова или окончания слова, то за таким словом следует тэг <?>
- в целях анонимизации имена заменяются на следующие тэги: <first name of interviewee>, < first name and full name of interviewer>, и подобные
- заглавные буквы используются только в случае, когда это необходимо по правилам правописания (имена собственные, I и другие). Клаузы или предложения не начинаются с большой буквы
- принятые сокращение слов и нестандартные формы слов, встречающиеся в словаре, (dunno, kinda и тому подобные) записываются в словарном виде
- числа записываются словами. Это позволяет избежать неясности в случаях, когда, например, год может быть произнесен различными способами
- иностранные слова обозначаются тэгами <foreign> и </foreign> до и после слова
В корпусе размечаются некоторые фонетические характеристики:
- если артикль a был произнесен как [ei], то записывается форма a[ei]
- если в артикле the был произнесен звук [i:], то записывается форма the[i:]
- просодическая информация (смех) и невербальные звуки (например, кашель) также размечаются специальными тэгами
- начало и конец ответов на различные типы заданий (свободное обсуждение, рассказ по картинке) помечаются соответствующими тэгами
Анкета студента включает информацию о национальности, стране, родном языке, родных языках родителей, ступени обучения; языке, на котором происходило обучение, количество лет изучения английского в школе и университете, о продолжительности, месте и давности пребывания в англоязычной стране, прохождении тестов на знание английского языка и результате теста, а также об уровне владения другими иностранными языками.
Устный корпус VOICE
Корпус Vienna-Oxford International Corpus of English (VOICE) также содержит речь студентов, изучающих английский язык. Сейчас корпус состоит из более чем 1000000 слов, порожденных носителями примерно 50 языков, большинство говорящих составляют европейцы. Поиск по корпусу не позволяет отобрать тексты в зависимости от первого языка говорящего. Узнать о родном языке всех говорящих можно в заголовке транскрипции или в отдельном окне с информацией о конкретном говорящем. При этом если говорящий является носителем более чем одного языка, будет указана информация обо всех языках. Речь была записана в различных ситуациях, которые включают интервью, семинары, пресс-конференции, встречи, диалоги, воркшопы, мероприятия в формате вопросов и ответов. Вся информация о типе мероприятия и его месте проведения, длительности и дате записи, возрасте, поле и родных языках говорящих доступна в специальном разделе текстового документа.
Корпус обладает собственной системой правил относительно транскрипции и разметки. Разметка производится в специально созданном текстовом редакторе VoiceScribe с встроенным аудио проигрывателем. При создании корпуса применялись следующие правила разметки (Breiteneder, и др., 2006)(Breiteneder et al. 2006):
- за словами, произнесенными с повышающейся интонацией, следует вопросительный знак, за словами с понижающейся интонацией ставится точка
- если говорящий интонационно выделяет слог, слово или фразу, то эта часть текста записывается заглавными буквами
- короткие паузы (до половины секунды) отмечаются точкой в скобках, длинные паузы отмечаются числом в скобках, число обозначает длину паузы в секундах
- поскольку записи могут предполагать участие нескольких говорящих, возможно наложение речи. Для отметки наложения речи используются пронумерованные тэги, которые обрамляют отрывки речи обоих говорящих. Одним номером отмечаются все одновременные высказывания
- удлиненное произношение звука обозначается двоеточием, которое ставится непосредственно после звука, очень долгие звуки (более двух секунд) отмечаются двойным двоеточием
- все повторения слов и фраз, включая самопрерывания и фальстарты, в транскрипции сохраняются
- в случае, если слово было произнесено не полностью, место прерывания обозначается дефисом
- смех обозначается символом @, количество знаков зависит от длины смеха. Слова, сказанные со смехом, заключаются в тэги с символом @
- если части слов, слова или фрагменты были произнесены нечетко и не могут быть точно установлены, то они записываются в скобках. Также произнесенное записывается в скобках, если оно не может быть распознано как существующее слово
- если слово было произнесено неверно, но из контекста может быть установлен правильный вариант, то он записывается в фигурных скобках после произнесенного слова
- сильные отклонения на уровне фонологии, морфологии и лексики, а также несуществующие слова выделяются специальным тэгом <pvc></pvc>
- отдельные неправильно произнесенные звуки в слове выделяются тэгами <ipa></ipa>
- звукоподражание вместо использования слов выделяется тэгами <ono></ono>
- отдельными тэгами выделяются различные случаи употребления неанглийских слов или фраз, тэг слов на родном языке говорящего, тэги слов на неродном языке (с обозначением языка либо указанием, что язык не удалось определить), тэги случаев, когда невозможно определить, родной или иностранный язык использует говорящий. При возможности в фигурных скобках приводится перевод слова на английский
- существует открытый список тэгов для речи, произнесенной необычным для говорящего способом: очень быстро, шепотом, читая текст и другие
- такие звуки, как кашель, зевок, шмыганье, фырканье, хлопанье в ладоши, произведенные говорящим, всегда транскрибируются. Звуки, произнесенные посторонними, транскрибируются только если это влияет на разборчивость речи или отвлекает говорящего
- в целях анонимности все имена, названия компаний и организаций заменяются на соответствующие тэги. Названия мест, городов, стран заменяются на тэги, если это может нарушить анонимность говорящего
- контекстуальная информация приводится в фигурных скобках в случае, если она важна для понимания разговора. К контекстуальной информации относятся звонок телефона, выход к доске, писание на доске и другие
- неразборчивая речь изображается символом x (количество символов зависит от примерного числа слогов) и выделяется тэгами <un></un>
Помимо перечисленных выше правил, расшифровщики текста могут дополнять транскрипцию собственными пометками. В них указывают дополнительную значимую информацию и наблюдения, не попавшие под перечисленные выше категории. К правилам записи танскрипций относятся:
- использование только латинских символов без диакритик и умляутов. Например, ц заменяется на oe, й заменяется на e
- заглавные буквы используются только для интонационного выделения слов или фраз
- используется британский вариант орфографии, кроме нескольких исключений (center, theater и другие). Если слово может быть написано с использованием -ize или -ise, всегда выбирается вариант -iz
- если слова произносятся неверно из-за особенностей акцента говорящего, записывается правильная форма слова
- цифры записываются словами, действуют британские правила постановки дефисов
- названия и адреса полностью записываются словами
- сокращенные в устной речи формы слов записываются полностью, кроме четырех случаев: cos, gonna, gotta, wanna
- сокращения с глаголами be и have (например, he's, won't) записываются в той форме, в которой они были произнесены
- дефисы в словах используются согласно правилам британской орфографии
- используется следующий набор дискурсивных маркеров: позитивная ответная реакция: yes, yeh, yah, okay, mhm, hm, aha, uhu, негативная реакция: no, n-n, uh-uh, колебания или филлеры: er, erm, вопрос: huh, восклицания: yay, yipee, whoohoo, mm:, сомнение: haeh, удивление: a:h, o:h, wow, poah, извинение: oops, утомление: ooph, пренебрежение: ts, pf, боль: ouch, ow, просьба о тишине: sh, psh, ожидание неприятностей: oh-oh:, u:h, неодобрение: ur, разочарование: oow
- дискурсивные маркеры, характерные для родного языка говорящего, помечается соответствующим тэгом, при возможности дается перевод в фигурных скобках
Правописание по правилам британского английского проверяется по оксфордскому словарю для изучающих продвинутого уровня (Oxford Advanced Learner's Dictionary)
Корпус имеет также частеречную разметку, однако не имеет отдельной систематизированной разметки ошибок. Ошибки могут быть найдены только по некоторым тэгам (несуществующие слова, неправильные части слов).
2. Поиск осуществляется по отдельным словам или фразам
Обзор существующих исследований на основе корпусных данных
В статье (J. Liddicoat, 2016) описывается исследование взаимодействия между носителями (native speakers) и не-носителями языка (non-native speakers). Анализ основан на небольшой коллекции отрывков из письменной коммуникации между носителями и не-носителями языка, которое происходило в блогах и форумах. Авторы исследования подчеркивают, что онлайн коммуникация позволяет создать живой содержательный диалог, содержание которого значительно отличается от коммуникации исключительно в учебных целях. Кроме того, онлайн коммуникация обеспечивает анонимность, что означает возможность менее строго придерживаться принятых социальных норм, прямо высказывать свою позицию и проявлять агрессию. Влияние носителей языка может проявляться через использование “наставительного тона”, когда носитель переключается с основной темы разговора на тему использования языка изучающим, считая возможным комментировать и исправлять его ошибки. Результаты исследования показали, что при использовании изучаемого языка люди могут выступать в двух ролях: в качестве пользователя языка или в качестве изучающего. Когда носитель языка переключает внимание на уровень владения языка, изучающий переходит из категории «пользователя» в категорию “изучающего”, в неполной мере владеющего языком. В этом случае создается неравенство, носитель языка занимает главенствующую позицию по праву обладания языковой компетенцией. Это приводит к тому, что, ощущая наставительный тон, изучающие язык предпочитают молчать.
Беглость речи принято измерять по трем категориям: скорость, паузы и самоисправления, причем первым двум признакам уделяется уделяется больше внимания в исследованиях беглости речи. Между тем, среди исследователей нет согласия относительно других показателей беглости речи (таких как ложный старт, повторение, перефразирование, заполненные и незаполненные паузы) при изучении иностранного языка. Поэтому анализ частотности ошибок может не отражать влияние некоторых параметров на беглость речи. В исследовании (Peltonen, и др., 2016) анализировалась устная речь школьников и студентов, являющихся носителями финского и шведского и изучающих английский. Типологическое расстояние между шведским языком меньше, чем между финским и английским, таким образом, носители шведского имеют преимущество в изучении английского.
Кроме того, ранее были показаны отличия в длине пауз между носителями английского и носителями русского (Riazantseva, 2001). Причем на более высоких уровнях владения языком разница нивелируется. В работе (Peltonen, и др., 2016) испытуемым необходимо было составить монолог по картинке, беглость речи оценивалась по следующим признакам: скорость речи, длительность монолога, средняя длительность монолога, количество незаполненных пауз, средняя длина незаполненных пауз, количество заполненных пауз, количество запинок, количество незаполненных пауз в середине клаузы, количество пауз внутри клаузы или разговорной единицы, количество ложных стартов, количество замен, количество переформулировок и повторений. Подсчеты, проведенные по данным параметрам, показали, что носители шведского языка, обучающиеся в старшей школе, показали лучшие результаты, чем их сверстники - носители финского. В университетских группах разница между носителями двух языков была менее значительной, однако тенденция осталась прежней. Сравнение с носителями английского языка продемонстрировало, что беглость речи шведских студентов оказалась ближе к носителям английского, чем беглость финских студентов. Изучение самоисправлений не выявило закономерностей среди рассматриваемых групп. Более того, самоисправления возможны и при высокой беглости речи, поэтому они не являются маркером. Рассмотрение незаполненных пауз показало, что владеющие более продвинутым уровнем языка студенты предпочитают использование незаполненных пауз на границах клауз, а не внутри них (Peltonen, и др., 2016).
В исследовании, проведенном Wu, C.-Y., Cheung, H. & Gao Z.-M. (Wu, 2013) было показано, как союз BUT используется изучающими английский язык в Тайване. Известно, что в письменном академическом английском языке существуют ограничения на использование сочинительного союза, а именно, союз BUT, соединяющий две составляющие одного ранга, может стоять только в середине предложения. Однако тайваньские студенты ставят данный союз в начале предложения. Для объяснения этого явления исследователи сравнили английские конструкции с конструкциями в родном языке студентов и изучили зависимость неверного использования от уровня владения английским. Как и ожидалось, обнаружилось сходство конструкций в первом языке с неправильными употреблениями в английском. Однако изучение ответов студентов среднего и продвинутого уровней не выявило связи между уровнем владения языком и количеством неправильных конструкций.
Французский учебный корпус начального языкового уровня создавался с целью улучшить стратегии преподавания французского в республике Тринидад и Табаго. Исследование Kawecki, R. (Kawecki, 2013) описывает влияние первого языка (английского), а также преобладающего второго языка (испанского) на усвоение французского. Авторы работы приводят множество случаев влияния первого и второго языков на изучение иностранного языка. Во-первых, студенты используют конструкции, которые являются структурными заимствованиями из их родного либо второго языка. Во-вторых, французское наречие aussi (тоже) занимает неправильные позиции в предложении или используется неправильно в результате дословного перевода с английского, где эквивалентом является наречие also.
Ряд исследований демонстрирует разницу между речью, порожденной носителями, и той, которая быда создана изучающими язык в качестве иностранного. Например, в работе, представленной P. de Haan (de Haan), показано, что изучающие английский язык нидерландские студенты склонны использовать большее количество интенсификаторов, чем англоговорящие студенты. В исследовании M. Tapper были получены аналогичные результаты на материале шведских студентов, изучающих английский. Кроме того, между двумя группами были семантические различия в использовании интенсификаторов.
Возможность использования машинного обучения для определения ошибок демонстрируется в работе (IZUMI, и др., 2004) на основе данных японского устного учебного корпуса NICT JLE Corpus. Для исследования были выбраны 13 наиболее частых ошибок, к которым относятся выбор числа существительного, лексические ошибки, ошибки согласования, выбора времени и другие. Для тренировочной выборки было взято около 17000 предложений, для тестовой выборки - 2000. Результаты в целом получились недостаточно высокими, наилучшие показатели были получены при определении неправильного выбора артикля. Добавление правильных предложений, порожденных носителями языка, а также исправленных предложений из корпуса позволило повысить точность до 75%.
3. Практическая часть
Сбор данных
Для проведения исследования были записаны ответы студентов - носителей русского языка на экзаменационные вопросы на знание английского языка. Студентам предлагалось ответить на вопросы в формате устной части экзамена IELTS. Устная часть данного экзамена состоит из трех разделов: в первой части экзаменующемуся необходимо представиться и дать краткую информацию о себе, а также кратко ответить на несколько вопросов , относящихся к одной из общих тем, таких как дом, семья, учеба, работа, спорт, путешествия, увлечения и еще несколько подобных. На каждый ответ дается 20 секунд. Во второй части необходимо дать развернутый ответ на вопрос по теме первой части, затронув в ответе все пункты, указанные в вопросе. На подготовку к ответу отводится одна минута, ответ должен занять не более двух минут. Во время подготовки разрешается делать заметки для использования их в качестве опоры при ответе. Третья часть также содержит несколько вопросов по теме первой и второй частей, для ответа на каждый вопрос дается одна минута. Задания предъявляются в видеоформате с заранее записанными вопросами и паузами. После предъявления каждого вопроса на экране начинается обратный отсчет времени, так что отвечающие могут видеть, сколько времени остается на ответ. Вопросы всех трех частей предъявляются устно, вопрос второй части и его подпункты дополнительно видны на экране в течение одной минуты, которая дается для подготовки к ответу. Все сидящие в аудитории начинают отвечать одновременно, ответ каждого отвечающего записывался на диктофон. Всего было восемь различных вариантов заданий на различные темы.
Ответы на задания устной части оцениваются по четырем критериям: беглость и связность, лексический запас, количество грамматических структур и правильность их использования, произношение.
Название каждой аудиозаписи состоит из порядкового номера говорящего (SP - speaker) и номера части задания (P - part). Поскольку предполагается создание корпуса исключительно из ответов на задания в формате IELTS, пользователям корпуса может быть интересна информация о типе задания (краткий или развернутый ответ с пунктами).
Транскрипция аудиозаписей
Несмотря на существование множества программ для автоматического генерирования транскрипций, при создании устного корпуса возможна только ручная расшифровка текстов, поскольку, как было упомянуто ранее, необходимо сохранить все особенности речи говорящего, а также допущенные при ответе ошибки.
Первый этап работы с аудиозаписями включает в себя создание системы правил для транскрипции аудиозаписей. Поскольку устная речь отличается от письменной большей спонтанностью и динамичностью, а также меньшей последовательностью изложения, часто она не может быть поделена на отдельные предложения или фразы. По этой причине при записи устной речи необходимо разделение текста на дискурсивные единицы, которые соотносились бы с паузами в речи. Экзаменационные вопросы при этом записываются в виде полных предложений.
С целью сохранения анонимности фамилии и имена отвечающих были заменены на соответствующие тэги <SURNAME> и <NAME>. В настоящие момент система правил транскрипции и аннотации ошибок создается в текстовом редакторе, в дальнейшем возможна замена тэгов в тексте на ярлыки, приписываемые словам.
Алфавит, знаки препинания и цифры
В транскрипции используются буквы латинского и кириллического алфавитов. Иногда отвечающие используют в речи на английском русские слова, либо дают комментарии к заданию на русском. В этом случае текст записывается кириллицей в фигурных скобках и помечается тэгом <RUSSIAN>, стоящим перед текстом на русском:
(1) hello my name is <NAME> <SURNAME> and ahm <RUSSIAN> {что надо еще говорить я не знаю}
Как и в описанных ранее корпусах, было принято решение записывать все числа в буквенном виде, чтобы точно передать их форму. Стандартные знаки препинания в транскрипции не используются по прямому назначению, исключение составляет знака вопроса. Знак вопроса ставится в конце фразы, сказанной с вопросительной интонацией. Другие применения знаков препинания будут обсуждаться в дальнейших разделах.
В связи с отсутствием деления текста на предложения, заглавные буквы используются только для слов, которые по правилам орфографии должны писаться с большой буквы.
Фонетические особенности говорящих
Также важно учесть тот факт, что все отвечающие начинают говорить одновременно. В большинстве случаев это не создает проблем для расшифровки аудиозаписей, однако иногда отдельные слова или фразы слышны не вполне четко, либо не могут быть идентифицированы. Впрочем, это может происходить и по другим причинам: в случае сомнения в правильности слова или грамматической конструкции экзаменующиеся могут начать произносить слова тише, чем в обычной речи, а также могут использовать несуществующие слова или формы слов, что затрудняет понимание произнесенного.
В некоторых случаях слова произносятся недостаточно внятно, сложности часто возникают с окончаниями слов. Например, концы слов могут проглатываться (2), (3):
(2) because I thin' it helps
(3) we have enough pools to go an' every school has its own pool
В примере (2) слово think может быть распознано как слово thing или thin, однако из контекста здесь очевидно, какое слово имел в виду говорящий. Но несмотря на то, что в этих случаях конец слова не влияет на правильность и понимание сказанного, транскрипция должна отражать все особенности произношения говорящего, поэтому записывается произнесенная форма слова.
Большие трудности возникают, когда неясно произносятся глагольные окончания третьего лица единственного числа настоящего времени (окончание -s). А также в случаях, когда слова похожи по звучанию или различаются лишь долготой звука. Анализ аудиозаписей показал, что в устной речи этих различий может быть недостаточно для определения произнесенного слова. Так, в примере (4) this и these различаются долготой гласного звука и звонкостью согласного звука на конце, в примере (5) слова различаются только долготой гласного, в случае (6) слова различаются гласным звуком. Возможно, в случае (4) говорящий задумался, произнося слово this, удлинив тем самым гласный звук. То же вероятно относится и к в примеру (5). По данным письменных учебных корпусов, в этих словах студенты действительно нередко совершают ошибки, но по причине того, что невозможно точно установить произнесенный вариант, в этих и других спорных случаях сомнение трактуется в пользу говорящего.
(4) I know that ah these/this sport is for children
(5) people who of course don't afraid of water an' who like too/to ah: escape from reality
(6) more than/then three hours
Отсюда также следует необходимость указывать особенности произношения отдельных слов на уровне фонетики: указывать длительность звуков и неправильное произношение слов. Нетипичная долгота звуков обозначается в тексте двоеточием, двоеточия располагаются непосредственно после растягиваемого звука, примеры (7), (8).
(7) even ex- extreme because you can break leg or even ne:ck
(8) I: can compare this ah: kind of sport with skiing skating or even with any othe:r
Неправильное произношение слов встречается в речи изучающих язык достаточно часто. В случае неправильного произношения некоторых звуков транскрипция слова записывается после самого слова, неправильно произнесенное слово в тексте отмечается соответствующим тэгом <PRN> (pronunciation). В транскрипции используются знаки международного фонетического алфавита. Здесь могут быть выделены несколько случаев:
- наиболее часто слова произносятся неправильно, если в русском есть слова с тем же лексическим значением и схожие по звучанию. Примеры (9)-(15) иллюстрируют подобные случаи, жирным выделены буквы и звуки, в которых допущены ошибки. В скобках приведены правильные варианты транскрипции. Как видно из примеров (9)-(13), если некоторые звуки английского слова не соответствуют русским в аналогичной позиции, то русскоговорящие студенты могут заменять их на русский вариант звука. В примерах (14) и (15) слова произнесены с неверным ударением, которое соответствует ударению в русских эквивалентах слов. Помимо неправильного ударения, в примере (14) на конце слова использован неверный звук, взятый из русского окончания слова метро.
(9) discipline [?d?sts?pl?n] ([?d?s?pl?n])
(10) it's a bachelor [?bжk?l?r] program ([?bжt??l?(r)])
(11) technologies [teh?n?l?d?is] ([tek?n?l?d?i])
(12) charisma [h??r?zmж] ([k??r?zm?])
...Подобные документы
Введение основных понятий корпусной лингвистики. Понятие учебного корпуса и лингвистической разметки. Обзор разработок мультимодальных корпусов и изучение их структуры. Создание русско-немецкого подкорпуса. Разметка текстов и аннотирование данных.
курсовая работа [2,0 M], добавлен 20.06.2014Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.
дипломная работа [95,5 K], добавлен 07.11.2013Основы устного перевода английского языка делового общения. Понятие жанрово-стилистической нормы перевода. Проблемы перевода клише и их словосочетаний. Анализ роли клише при устном переводе английского языка делового общения в устной и письменной речи.
курсовая работа [55,8 K], добавлен 19.04.2015Диалог и монолог в устной и письменной формах речи. Разновидности речи. Употребление устойчивых словосочетаний. Стандартизованный характер письменной речи. Случаи употребления языковых средств с точки зрения их принадлежности к устной или письменной речи.
контрольная работа [20,6 K], добавлен 15.07.2012Психологический аспект использования мультимедийных средств. Формирование навыков устной и письменной речи учащихся. Процесс развития иноязычных лексических навыков. Применение мультимедийных средств обучения на уроках английского языка в начальной школе.
дипломная работа [289,5 K], добавлен 29.07.2017Сравнительный анализ на основе проведенного анкетирования речи у учащихся 6, 7, 10 классов. Выявление существующих проблем, их источник и обоснование, психологическое и моральное. Развитие интереса к изучению и сохранению собственной культуры и языка.
реферат [32,0 K], добавлен 28.01.2014Общая характеристика форм речи. Устная форма речи. Письменная форма речи. Специфика норм письменного кодифицированного языка. Сходства и различия между устной и письменной формами речи.
контрольная работа [22,5 K], добавлен 24.07.2007Стили устной и письменной речи. Жанры письменных и научных стилей. Понятия грамматической нормы. Характеристика лексических, морфологических, синтаксических свойств письменной речи. Качества научной речи и терминологическая лексика. Конспекты и их виды.
практическая работа [118,8 K], добавлен 03.03.2014Общие закономерности перевода и делового английского языка в устной и письменной речи. Нюансы перевода деловой переписки. Грамматические особенности письменного английского языка делового общения. Существующие нюансы в употреблении английских слов.
курсовая работа [49,9 K], добавлен 07.01.2014Сущность речевой деятельности, ее значение для человека, этапы осуществления и свойства. Положение русского языка в мире. Понятие и признаки литературного, научного и разговорного языка, нормы и современные тенденции. Культура устной и письменной речи.
учебное пособие [325,5 K], добавлен 08.05.2009Обучение чтению и переводу англоязычной литературы, а также развитие навыков устной речи на этой основе. Изучение грамматического строя английского языка. Тексты на данном языке, задания к ним, упражнения, ориентированные на его изучение социологами.
методичка [230,4 K], добавлен 19.11.2014Естественная письменная речь как объект лингвистического изучения, её сущность и аспекты изучения. Гендерные особенности жанров естественной письменной речи, гендерная лингвистика и жанры речи, владение комплексом речежанровых характеристик языка.
реферат [47,7 K], добавлен 12.07.2010Изучение особенностей литературного языка, история его становления и развития, роль в жизни общества. Использование русского языка в устной и письменной речи. Выработка литературно-языковых норм. Оценка влияния эмоций и чувств читающего на речь и письмо.
реферат [28,5 K], добавлен 05.12.2013В структуре занятия для обучения устной речи можно выделить четыре этапа: подготовительный, восприятие сказки при первичном прочтении, контроль понимания основного содержания, развитие языковых навыков и умений устной речи.
реферат [7,3 K], добавлен 18.02.2003Психолого-педагогические основы обучения устной английской речи в средней школе с применением технических средств. Создание методики интенсивного изучения устно-речевой основы английского языка, проверка эффективности системы разработанных упражнений.
дипломная работа [58,9 K], добавлен 21.10.2011Анализ состояния современного русского языка в конце XX столетия. Исследование механизмов образования новой лексики на примерах 1990-2000-х годов. Лексико-грамматические изменения языка СМИ. Огрубление письменной и устной речи за счет жаргонной лексики.
реферат [22,1 K], добавлен 02.06.2013Зависимость семантики высказывания от употребления того или иного артикля в устной и письменной речи английского языка с элементами аппозитивной конструкции. Использование неопределенной и определенной дескрипции, имен собственных в функции приложения.
дипломная работа [64,4 K], добавлен 11.02.2011Работа над стилями литературного языка. Изучение лексики, словообразования, орфографических и пунктуационных норм оформления официальных документов и деловых бумаг. Исследование языковых норм письменной и устной речи, фонетики, графики и фразеологии.
методичка [73,8 K], добавлен 22.11.2011Формирование американского варианта английского языка. Различия в лексике, орфографии, произношении, грамматике. Образцы речи в американском варианте английского языка. Распространение американского английского в британском варианте английского языка.
курсовая работа [50,4 K], добавлен 20.03.2011Формы существования языка. Основные требования, предъявляемые к устной и письменной речи. Краткая история русского литературного языка. Произносительная сторона речи. Требования литературной правильности, благозвучия. Влияние классовых жаргонов.
контрольная работа [15,9 K], добавлен 01.04.2011