Главная Коллекция "Revolution" Иностранные языки и языкознание Computational linguistics and discourse complexology: paradigms and research methods

Computational linguistics and discourse complexology: paradigms and research methods

The modern areas of research in computational linguistics and linguistic complexology and definition a solid rationale for the new interdisciplinary field, discourse complexology. Contribution of theoretical linguistics to computational linguistics.

Рубрика	Иностранные языки и языкознание
Вид	статья
Язык	английский
Дата добавления	07.05.2023
Размер файла	141,9 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

One of these situations is cognitive analysis of mistakes made in a foreign language learning which is the object of research conducted by Lyashevskaya and Yanda and colleagues. Both studies focus on the interrelationship between text complexity of texts and cognitive resources necessary to comprehend a text. Lyashevskaya et al. established that the number of mistakes made by a student is correlated with morphological complexity of his/her discourse. Yanda et al. present a computer system designed to analyze and adequately explain mistakes of a learner of Russian as a foreign language.

Conclusion

The recent successes of computational linguistics have largely ensured accomplishments in discourse complexology and allowed scientists not only to automate a number of linguistic analysis operations, but also create user-friendly text profilers. Tools such as ReaderBench, Coh-Metrix, and RuMOR (cf. the current issue) are capable of solving both research and practical tasks: selecting texts for target audiences, editing and shortening texts, analyzing cognitive causes of errors, and even suggesting verbal strategies. The algorithms of automatic text profilers are based on classical and machine learning methods, including deep learning neural networks, one of the latest systems of which is BERT. At present, and this is well shown in a number of articles of the special issue, researchers are successfully combining methods of machine learning and the so-called “parametric approach".

However, the most important feature of modern research is a vast expansion of research problems and accuracy increase resulting from the abilities of artificial neural networks to learn and modify. Artificial intelligence breakthroughs are attributable to the three main factors: new advanced self-learning algorithms, high computer speeds, and a significant increase in training data. Modern databases, as well as dictionaries and tools for the Russian language developed in recent years, allowed the authors of the special issue to address and successfully solve a number of problems of text complexity.

A solid foundation for success in discourse complexity were findings of cognitive scientists at the beginning of our century which completely changed complexology paradigm. If the main achievement of the XXth century complexology was the idea that “different types of texts are complex in different ways", the discourse complexology of the XXIst century proposed and verified complexity predictors for various types of texts and developed toolkits for assessing relative complexity of texts in various communicative situations. With cognitive methods in its arsenal, complexology acquired two additional variables: linguistic personality of the reader and reading environment.

The new research paradigm of linguistic complexology is manifested in those articles of the special issue which are aimed at defining new criteria for text complexity: expert evaluation, comprehension tests and reading speed tests have been replaced by new methods, which allow scholars to identify discourse units affecting text comprehension.

The studies published in the special issue also highlighted the main problems facing Russian linguistic complexology: creating a complexity matrix for texts of various types and genres, expanding the list of complexity predictors, validating new complexity criteria, and expanding databases for the Russian language.

Введение

Статья посвящена современным трендам компьютерной лингвистики и проблематике сложности языка и дискурса. В ней также дается краткий обзор статей выпуска.

Компьютерная лингвистика (далее КЛ) является междисциплинарной наукой на стыке лингвистики и компьютерных наук. Она исследует проблемы автоматической обработки информации в языковой форме. Другое часто используемое название этой дисциплины, фактически синонимичное термину «компьютерная лингвистика», - обработка естественного языка (Natural Language Processing, NLP). Иногда эти понятия разграничивают, считая, что КЛ - в большей степени теоретическая дисциплина, а NLP - более прикладная. КЛ начала развиваться в начале 1950-х гг., почти сразу после появления компьютеров. Первой ее задачей была разработка машинного перевода, в частности перевода научных журналов с русского языка на английский. О начальном этапе развития КЛ можно прочитать в работе (Hutchins 1999). Безусловно, первоначальный оптимизм по поводу быстрого решения проблемы машинного перевода оказался необоснованным, и лишь в последние годы удалось получить переводы приемлемого качества. Однако в КЛ за 70 лет развития достигнуты серьезные успехи в решении многих актуальных практических задач, что сделало ее одним из самых динамично развивающихся и важных разделов как лингвистики, так и компьютерных наук. На наш взгляд, лучшими монографиями по КЛ являются (Clark et al. 2013, Indurkhya & Damerau 2010). Последний обзор, включающий также анализ перспектив ее развития, можно найти в статье (Church & Liberman 2021).

Появившееся примерно 10 лет назад глубокое обучение нейронных сетей (Schmidhuber 2015) обеспечило настоящую революцию в области искусственного интеллекта и в том числе во многих разделах КЛ. Искусственные нейронные сети представляют собой формальную модель биологических сетей нейронов. Важнейшей их особенностью является способность к обучению, в случае ошибки нейронная сеть определенным образом модифицируется. Хотя нейронные сети были предложены еще в 1943 г., лишь несколько лет назад был совершен прорыв в их использовании. Он связан с тремя факторами: появлением новых, более совершенных алгоритмов самообучения, повышением быстродействия компьютеров, увеличением накопленного в интернете объема данных для обучения. В области NLP к прорыву привело появление в конце 2018 г. модели BERT (Devlin et al. 2018) - нейронной сети, предобученной на корпусе текстов. В настоящее время BERT и ее усовершенствованные варианты показывают лучшие результаты в решении многих задач NLP (новейший обзор см. (Lauriola et al. 2022)).

В обзоре трендов компьютерной лингвистики делается акцент на следующих аспектах исследований: прикладные задачи, методы, компьютерные лингвистические ресурсы, вклад теоретической лингвистики в компьютерную, применение нейронных сетей глубокого обучения.

Прикладные задачи и методы компьютерной лингвистики

Прикладные задачи компьютерной лингвистики

Кроме машинного перевода можно выделить следующие основные классы прикладных задач, лежащих в русле КЛ: обработка документов, компьютерный анализ социальных сетей, анализ и синтез речи (в том числе голосовые помощники), вопросно-ответные системы, рекомендательные системы. Наиболее объемной является задача обработки документов, включающая в себя большой спектр подзадач: поиск, суммаризация, классификация, анализ тональности, извлечение информации и т.д.

Поиск, очевидно, следует рассматривать как наиболее известную задачу КЛ, успешно реализованную в поисковиках Google, «Яндекс» и повсеместно используемую. Обстоятельное введение в проблематику информационного поиска можно найти в (Маннинг и др. 2011). Основной вид поисковых запросов - набор ключевых слов. Двумя главными проблемами поиска являются: необходимость обеспечить быстрый поиск в гигантском количестве текстов в интернете и обеспечить поиск с учетом семантики запроса, а не просто совпадения слов в запросе и документе. Быстрый поиск предполагает предобработку всех документов в интернете и создание так называемого поискового индекса, указывающего, в каких конкретно документах находится искомое слово. Поиск документов по семантике, или семантический поиск, реализован в рамках хорошо известной концепции Семантической паутины, или Semantic Web (Domingue et al. 2011), в основе которой лежит идея онтологий, о которых речь пойдет ниже. Пример семантического поиска: Google в ответ на запрос Бетховен та та та там первой выдает ссылку на статью в «Википедии» о 5-й симфонии Бетховена, хотя в тексте статьи не содержится фраза та та та там. Таким образом, поисковик Google «понимает», что та та та там и 5-я симфония семантически связаны. Успешный поиск был бы просто невозможен без лингвистических исследований, которые привели к созданию алгоритмов морфологического и синтаксического анализа, тезаурусов и онтологий для экспликации семантических связей между сущностями.

Термин «извлечение информации» трактуется как поиск в тексте информации определенного вида: сущностей, их отношений, фактов и т.д. Наиболее проработанной является задача извлечения именованных сущностей (Name Entity Recognition, NER), т.е. имена персон, организаций, географических объектов и т.д. Недавний опрос IT-профессионалов из различных сфер бизнеса (ENA, June 6, 2022) https://gradientflow.com/2021nlpsurvey/ показал, что задача NER является наиболее востребованной в бизнес-приложениях. Для решения этой задачи применяются различные техники: использования готовых словарей имен людей, названий географических объектов; лингвистических признаков (использование заглавных букв), подготовленных паттернов именных групп; методов машинного обучения. Обзор этой области можно найти в (Sharnagat 2014). Системы NER, основанные на словарях и правилах, правильно извлекают около 90% сущностей в текстах. BERT-основанные системы обеспечивают уже около 94% правильно извлекаемых сущностей (Wang 2020), что сопоставимо с уровнем точности человека и демонстрирует преимущества нейронных сетей с глубоким обучением. Значительно сложнее задача извлечения событий и фактов. Классический подход здесь состоит в создании шаблонов событий, в которых фиксируются типы и роли сущностей, участвующих в событиях. Например, событие «24 июня 2021 г. Майкрософт презентовала Windows 11» описывается следующим шаблоном: Тип активности - коммерческая презентация, Компания - Майкрософт, Продукт - Windows 11, Дата - 24 июня 2021 г. Шаблоны такого вида создаются вручную, что является весьма трудоемким делом. От их качества зависит эффективность системы извлечения информации. Обычно такие системы извлекают лишь около 60% фактов (Jiang et al. 2016).

В последние годы много работ посвящено сентимент-анализу текстов (Cambria 2017). Под этим понимается определение тональности текстов: выражено ли в тексте позитивное или негативное отношение к описываемым объектам. Эта область важна компаниям для оценки комментариев пользователей об их товарах и услугах. Для решения этой задачи также используются паттерны, словари, методы машинного обучения. Для русского языка создан словарь RuSentiLex (Loukachevitch & Levchik 2016), включающий более 12 тыс. слов и словосочетаний, маркированных как позитивные, негативные или нейтральные. Главная проблема сентимент-анализа текстов - это зависимость тональности слова от контекста. Слово в одних контекстах может иметь позитивную окраску, а в других - негативную. Возможным решением данной проблемы можно рассматривать построение словарей сентимент-лексикона для специфических предметных областей. Еще одна фундаментальная проблема - не просто оценить тональность всего текста в целом, а установить, к какому аспекту ситуации относится оценочное высказывание. Это особенно важно в прикладных исследованиях отзывов пользователей о товарах и услугах (Solovyev & Ivanov 2014). Лучший в настоящее время результат - около 85% по стандартным метрикам точности и полноты - достигнут c применением технологии BERT (Hoang et al. 2019).

Еще одной важнейшей задачей обработки документов является суммаризация или саммаризация текстов (Miranda-Jimenez et al. 2013) - автоматическое построение краткого изложения (абстракта) содержания текста (или текстов). Ее практическая важность определяется гигантским и все возрастающим объемом текстов в интернете. Существует два подхода к решению этой задачи: экстрактивный и абстрактивный. Первый подход - экстрактивный - состоит в оценке информационной значимости предложений в тексте и выделении небольшого числа наиболее значимых. Он требует нетривиальных математических методов оценки информационной значимости фрагментов текста. Второй - абстрактивный - состоит в генерации оригинальных предложений, суммирующих все содержание исходного текста. Для генерации абстрактов, т.е. аннотаций текстов, в последние годы успешно применяются нейронные сети. В качестве одного из наиболее важных компонентов системы суммаризации включают алгоритмы синтаксического анализа предложений. Краткий обзор представлен в (Allahyari 2017).

Следующей задачей, которую мы здесь рассмотрим, является компьютерный анализ социальных сетей (social network, social media). Анализ контента социальных сетей преследует много различных целей. Это и мониторинг настроений в обществе, и выявление проявлений экстремизма и иной противозаконной деятельности, и даже анализ распространения эпидемий. Анализ контента социальных сетей, связанного с пандемией ковида, в том числе c распространением дезинформации, появился уже в начале эпидемии (Cinelli et al. 2020). В ходе анализа социальных сетей определяются как собственно содержание сообщений, так и связи между пользователями, что позволяет выявлять группы пользователей с общими интересами. При этом существенную трудность представляет разнородность контента. В последние годы основным инструментом анализа социальных сетей стали нейронные сети (Ghani et al. 2019). В работе (Batrinca & Treleaven 2015) представлен обзор данной области исследований, специально ориентированный на гуманитариев.

Несколько особняком в КЛ стоят анализ и синтез речи, требующие специфических программно-аппаратных средств работы с акустическими сигналами. Системы распознавания речи очень разнообразны и классифицируются по многим параметрам: размеру словаря; типу (возрасту, полу) диктора; типу речи; назначению; типу структурной единицы и принципам ее выделения (фразы, слова, фонемы, дифоны, аллофоны и др.). Входной речевой поток сопоставляется с акустическими и языковыми моделями, включающими разнообразные признаки: спектрально-временные, кепстральные, амплитудно-частотные, признаки нелинейной динамики. Распознавание речи признается сложной задачей, покольку слова произносятся разными людьми и в разных ситуациях по-разному. Тем не менее на настоящий момент существует множество коммерческих систем распознавания речи, в частности встроенных в Windows. Хорошо известна система Watson speech to text, разработанная IBM (Cruz Valdez 2021). На распознавании речи строится работа все более широко используемых голосовых помощников. В России широко известной среди них является разработка «Яндекса» - Алиса (ENA, June 6, 2022) https://dialogs.yandex.ru/store Алиса интегрирована с сервисами «Яндекса»: по голосовой команде она ищет информацию в одноименном браузере, узнает погоду на Яндекс.Погоде, данные о трафике - в Яндекс.Картах и т.д. Алиса может управлять системами умного дома и даже развлекать: играть с детьми в загадки, рассказывать сказки и анекдоты. Распознавание речи в голосовых помощниках облегчается тем, что им достаточно настроиться на голос определенного человека. Обзор современного состояния проблематики голосовых помощников можно найти в (Nasirian et al. 2017), а по общим проблемам распознавания речи - в (Nassif 2019).

Синтез речи уже активно применяется в информационно-справочных системах, в объявлениях об отправлении поездов, в приглашениях к стойке в аэропортах, к определенному окну в госучреждениях и т.д. Во всех случаях это ситуации с ограниченным спектром синтезируемых фраз. Наиболее простым способом синтеза речи является ее компоновка из заранее записанных фрагментов. Качество синтеза оценивается по сходству синтезированной речи с речью человека. В целом к настоящему времени не удалось создать высококачественные системы синтеза речи. Новейший обзор по синтезу речи представлен в (Tan 2021).

Перейдем к рекомендательным системам, с которыми сталкивалось, вероятно, большинство пользователей интернета. Рекомендательные системы предсказывают, какие объекты (фильмы, музыка, книги, новости, веб-сайты) будут интересны конкретному пользователю. Для этого они собирают информацию о пользователях, иногда в явном виде, просят их дать оценку объектам интереса, а чаще - в неявном виде, собирая информацию о поведении пользователей в интернете. Продуктивной оказалась следующая идея: люди, одинаково оценивавшие какие-либо объекты в прошлом, вероятнее всего, будут давать похожие оценки другим объектам и в будущем (Xiaoyuan & Khoshgoftaar 2009). Именно эта идея позволяет эффективно экстраполировать поведение пользователей. При разработке рекомендательных систем возникают чисто лингвистические проблемы, например учет синонимии. Такие системы должны понимать, что «детский фильм» и «фильмы для детей» - это одно и то же. По проблеме синонимии в рекомендательных системах см. работу (Moon 2019), а общий обзор представлен в (Patel & Patel 2020).

Вопросно-ответные системы, или QA-системы, призваны обеспечивать ответы на естественном языке на вопросы пользователей, т.е. обладать естественно-языковым интерфейсом. Речь идет о поиске ответов в текстовой базе данных, которой располагают QA-системы. QA-системы, как и поисковики, предоставляют пользователю возможность искать информацию. Однако важным отличительным свойством QA-систем является то, что они позволяют найти такую информацию, о которой пользователь мог и не подозревать, например, соответствующие его вкусам, но не известные ему фильмы, которые он бы не смог найти с помощью поисковика. Очевидно, что качество QA-системы зависит от того, насколько полна база данных, т.е. есть ли в ней вообще ответ на поставленный вопрос, а также от технологий обработки вопросов и сопоставления их с информацией в базе данных. Обработка вопроса начинается с определения типа вопроса и ожидаемого ответа. Например, вопрос «Кто...» предполагает, что в ответе должно быть имя человека. Далее применяются сложные методы КЛ. QA-системы, аналогично рекомендательным системам, также сталкиваются с проблемой синонимии (Sigdel 2020). Обзор проблематики QA-систем можно найти в (Ojokoh & Adebisi 2018).

Методы компьютерной лингвистики

Все методы КЛ можно разделить на два больших класса: основанные на словарях и правилах (шаблонах) и основанные на машинном обучении. Эти два класса принципиально различаются по подходам. В основе словарей и правил лежат знания о языке, аккумулированные лингвистами. Это высокопрофессиональный ручной труд и поэтому весьма дорогостоящий. Машинное обучение предполагает наличие большого числа примеров, обычно в виде размеченных корпусов (обучающего множества), проанализировав которые и выявив их закономерности, компьютер сможет находить решение и при анализе новых данных. Существуют различные способы машинного обучения, однако наибольшие успехи в последнее время демонстрируют нейронные сети глубокого обучения. Языковые данные подаются на вход нейронной сети в закодированном виде в формате токенов: букв, биграмм, коротких высокочастотных морфем и слов. Сложностью в применении этого подхода является необходимость разметки большого корпуса текстов под решаемую задачу: чем больше обучающее множество, тем лучше обучится нейронная сеть. При этом разметка носит достаточно простой характер и для ее выполнения не обязательно привлечение профессиональных лингвистов, можно ограничиться просто носителями языка.

Остановимся на базовых методах КЛ, отсылая за детальным изложением вопроса к вышеупомянутым монографиям (Clark et al. 2013, Indurkhya & Damerau 2010).

Автоматический анализ текста обычно начинается с его предобработки, включающей сегментацию текста, т.е. его разбиение на слова и предложения.

Может показаться, что это несложные задачи, поскольку слова отделяются друг от друга пробелами, а предложения начинаются с заглавной буквы и заканчиваются точкой (редко - восклицательным или вопросительным знаками, многоточием) с последующим пробелом. Это простейший пример правила или шаблона: «точка - пробел - заглавная буква». Однако точка может стоять в середине предложения после первого инициала, за ней будет пробел и затем второй инициал с заглавной буквой. Здесь точка явно не указывает на разделение текста на предложения. В качестве примера можно привести такое предложение: «Лукашевич Н.В., Левчик А.В. Создание лексикона оценочных слов русского языка РуСентилекс // Труды конференции OSTIS-2016. С. 377-382». Тем не менее, несмотря на указанные сложности, проблема сегментации считается практически решенной. Еще в 1989 г. в (Riley 1989) была достигнута точность 99,8% в решении задачи разбиения текста на предложения. Для достижения такого результата потребовалась сложная система правил. В ней учитывались такие признаки, как длина слова перед точкой, длина слова после точки, наличие слова перед точкой в словаре аббревиатур и ряд других.

Следующий шаг в ходе анализа текста - морфологический. Рассмотрим в качестве примера язык со сложной морфологией - русский. Для русского языка морфологический анализ выполняется многими анализаторами: MyStem, Natasha, pymorphy2, SpaCy и др. В КЛ морфологический анализ, цель которого состоит в определении морфологических характеристик слова, основан на детальном описании парадигм словоизменения. Для русского языка справочник создан такого рода создан (Зализняк 1977), в котором представлены индексы парадигм почти 100 тыс. слов (лемм) русского языка. Наличие такого справочника позволило сгенерировать около 3 миллионов словоформ для зафиксированных лемм русского языка. Автоматический анализ текста находит соответствующую любой словоформе лемму и полный перечень морфологических характеристик. Главной сложностью, с которой существующие анализаторы пока не справляются полностью, является омонимия форм. Базовое решение состоит в том, что анализатор выдает все варианты разборов. Однако во многих задачах требуется указать единственное решение. В этом случае анализаторы выдают наиболее частотный вариант морфологического разбора, не учитывая значение слова в контексте. Еще одна проблема - это проблема разбора «несловарных» слов, т.е. слов, отсутствующих в словаре. Для их морфологического анализа, учитывая, что количество таких слов в среднем составляет около 3%, приходится разрабатывать специальные алгоритмы. В простейшем случае анализируется окончание несловарной единицы и ей приписывается типичная для этого окончания парадигма словоизменения.

Синтаксический анализ, или парсинг, намного более сложен. Результатом синтаксического парсинга предложения является дерево зависимостей, отражающее структуру предложения либо в формализме генеративной грамматики, либо в формализме грамматики зависимостей (dependency grammar (Tesniere 2015)). Для успешного синтаксического разбора необходимо детальное описание синтаксиса языка. Для русского языка наиболее успешным признан анализатор проекта ЭТАП, разрабатываемый более 40 лет в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН. Его последняя версия - ЭТАП-4 доступна по адресу (ENA, June 6, 2022) http://proling.iitp.ru/ru/etap4. В основу синтаксического анализатора проекта ЭТАП положена хорошо известная модель «Смысл ^ Текст» (Мельчук 1974), ее формализованный вариант изложен в монографии (Апресян 1989). В последнее десятилетие конкурирующим стал подход на основе нейронных сетей (Chen & Manning 2014). Для обучения нейронных сетей используются базы данных предложений с их синтаксическим разбором. Для английского языка это, например, English Penn Treebank (ENA, June 6, 2022) https://catalog.ldc.upenn.edu/LDC99T42. Для русского языка можно использовать SynTagRus (ENA, June 6, 2022) https://universaldependendes.org/treebanks/ru_syntagrus/index.html, созданный в Лаборатории компьютерной лингвистики ИППИ РАН.

Еще более сложной следует признать задачу семантического анализа. Однако, если мы хотим, чтобы компьютер хотя бы в какой-то степени «понимал» смысл, необходимо, некоторым образом, формализовать семантику слов и предложений. Классическими в решении данной проблемы являются два направления. Первое направление инициировано Ч. Филлмором (Fillmore 1968), который ввел понятия семантических падежей или ролей именных групп в предложении. Правильное установление семантических ролей - важный шаг к пониманию предложения. Исходные идеи Ч. Филлмора были воплощены в компьютерной лексической базе данных FrameNet (ENA, June 6, 2022) https://framenet.icsi.berkeley.edu/fndrupal/.

Второе направление - это создание электронного тезауруса (лексической онтологии) WordNet (Fellbaum 1998) для английского языка и его аналогов - для многих других языков. Для русского языка было предпринято несколько попыток создания аналога WordNet, наиболее удачным из которых и широко используемым в настоящее время признан тезаурус RuWordNet (ENA, June 6, 2022 https://ruwordnet.ru/ru,(Loukachevitch & Lashevich 2016)), содержащий более 130 тыс. слов. В WordNet-подобных тезаурусах эксплицированы семантические отношения между словами (понятиями), в том числе синонимия, гипонимия, гиперонимия и ряд других. Данные системные параметры в определенной степени уже определяют часть семантики слов. WordNet успешно использовался в большом числе как лингвистических, так и компьютерных исследований.

В последние годы была предложена идея векторного представления семантики слов (word embeddings), в основу которой положена дистрибутивная гипотеза: лингвистические единицы, встречающиеся в аналогичных контекстах, имеют близкие значения (Sahlgren 2008). Данная гипотеза подтверждена в ряде работ, в рамках которых созданы и исследованы векторы частот слов, зафиксированных в большом корпусе текстов в контексте изучаемых слов. Существует целый ряд уточнений и компьютерных реализаций этой идеи, однако используется преимущественно word2vec (Mikolov et al. 2013), доступная в библиотеке Gensim (ENA, June 6, 2022) https://github.com/rare-technologies/gensim и пользующаяся наибольшей популярностью. Для русского языка существует система RusVectores (Kutuzov & Kuzmenko 2017), доступная по адресу: (ENA, June 6, 2022) https://rusvectores.org/ru/ и выполняющая ряд операций со словами на основе их векторной семантики. RusVectores, например, может рассчитывать семантическую близость слов.

Разумеется, важнейшим инструментом исследований в КЛ, да и всей лингвистики в целом, являются корпусы текстов. Первым корпусом был созданный в 1960-е гг. Brown Corpus, содержащий на момент создания один миллион слов. С тех пор требования по объему корпусов стали неизмеримо выше. Для русского языка наиболее известен Национальный корпус русского языка (НКРЯ, ENA, June 6, 2022 https://ruscorpora.ru/new/). Созданный в 2004 г., он постоянно пополняется и в настоящий момент включает более 600 млн слов. В 2009 г. Google создал очень интересный многоязычный ресурс - Google Books Ngram (ENA, June 6, 2022) https://books.google.com/ngrams, содержащий 500 млрд слов, в том числе 67 млрд слов для русского языка (подробнее о данном ресурсе см. Michel 2011). Важной проблемой остается разметка корпусов, которая в сложных случаях осуществляется вручную. При этом важным является привлечение нескольких аннотаторов и контроль согласованности их разметок (Pons & Aliaga 2021). Несмотря на то, что корпусы стали неотъемлемым элементом лингвистических исследований, споры о репрезентативности, сбалансированности, дифференциальной полноте, предметной и жанровой отнесенности, корректности данных продолжаются. Обсуждение этих вопросов для корпуса Google Books Ngram можно найти в (Solovyev et al. 2020).

Подводя итог этому разделу статьи, отметим, что благодаря КЛ мы имеем такие уже ставшие привычными сервисы, как информационный поиск, автоматическая коррекция ошибок и многие другие. Это стало возможным благодаря принципиально важным достижениям не только в компьютерных науках, но и в лингвистике. В КЛ используются обширные словари и тезаурусы, детально проработанные модели синтаксиса, гигантские корпусы текстов. Автоматический морфологический анализ в современном виде просто не существовал бы без «Грамматического словаря русского языка» А.А. Зализняка (1977). Многие исследования в КЛ основаны на созданных вручную тезаурусах WordNet и RuWordNet. Компьютерные технологии, в свою очередь, вносят вклад в развитие лингвистики. Использование корпусов текстов, статистических методов стало уже общим местом, без этого проведение серьезных лингвистических исследований становится невозможным. Все ключевые технологии КЛ являются общедоступными. Программы для решения основных задач для ряда языков, но не для русского, доступны здесь (ENA, June 6, 2022) https://stanfordnlp.github.io/CoreNLP/

В одной статье, разумеется, невозможно дать исчерпывающее представление о столь обширной и быстро развивающейся области науки о языке, как компьютерная лингвистика. Многие важные вопросы остались незатронутыми. К ним можно отнести следующие: разрешение кореференции, снятие омонимии, тематическое моделирование и др., для знакомства с которыми следует обратиться к специальной литературе или указанным выше монографиям.

Сложность языка и текста как научная проблема

Ядром спецвыпуска является группа статей, посвященных оценке сложности текстов.

Оценка сложности языка в зависимости от количества имеющихся в его системе категорий представляется, на первый взгляд, весьма логичной, а сама задача - выполнимой. Иллюстрацией в данном случае могут служить, например, фонологический инвентарь языка, количество морфофонологических правил или форм глагола. Очевидной в данном случае становится возможность сравнительной оценки сложности разных языков и присвоения им некоторой объективной, абсолютной сложности (Miestamo et al. 2008). Добавим, что именно «объективная» сложность значима при освоении неродного языка. С другой стороны, если язык изучается как родной, он не представляет для детей сложности, и с этой точки зрения сложность всех языков абсолютно одинакова. Исследователи признаются, что сложность языка и текста «сопротивляется измерению», а ученые, работающие в этой области, сталкиваются с концептуальными и методологическими трудностями.

Значимым в свете изучаемой проблематики представляется описание взаимосвязи и взаимозависимости двух направлений изучения сложности: сложности языка (lingue), или языковой (лингвистической) комплексологии, с одной стороны, и сложности текста (parole) или дискурса (discourse complexity), или дискурсивной комплексологии, - с другой.

Трактовка самого понятия «сложность языка (lingue)» кардинально менялась в течение XIX-XX вв. В XIX в. общепринятым было выдвинутое В. Гумбольдтом положение о том, что различия в структуре языка и, следовательно, сложности определяют развитие говорящих на этом языке людей (Humboldt 1999: 37). Признавая данное положение, ученые фактически соглашались с концепцией неравного статуса языков и народов. В XX в. на смену гумбольдианским взглядам, утверждающим неравные позиции языков и их носителей, пришла концепция единой, неизменной для всех языков мира сложности, получившая два названия: ALEC («All Languages are Equally Complex», букв. «Все языки одинаково сложны») (Deutscher 2009: 243) и linguistic equicomplexity dogma - букв. лингвистическая догма равной сложности (Kusters 2003: 5). В работах ученых, поддерживающих данную концепцию, доказательству подлежали две гипотезы: (1) сложность языка складывается из подсложностей (sub-complexities) его элементов; (2) все под-сложности в лингвистических подсистемах компенсированы: простота в области А компенсируется сложностью в области В, и наоборот («компенсаторная гипотеза»). Аргументируя концепцию «Все языки одинаково сложны», Ч. Хоккет весьма смело заявил: «Объективное измерение сложности затруднено, но субъективно понятно, что общая грамматическая сложность любого языка, включая его морфологию и синтаксис, примерно одинакова. Это неудивительно, поскольку все языки выполняют одни и те же функции: что не может быть сделано «морфологически», должно быть сделано «синтаксически» (Hockett 1958: 180-181). К сожалению, в работах данного направления и периода традиционно не обсуждались критерии оценки сложности, а эмпирические доказательства попросту отсутствуют. Подробный обзор точек зрения о «догме равной сложности» представлен в основополагающей работе Дж. Сэмпсона, Д. Гила и П. Традгилла «Сложность языка как эволюционирующая переменная» (Sampson et al. 2009).

Начало XXI в. ознаменовалось появлением ряда критических обзоров теории равной сложности всех языков, с одной стороны (см. Miestamo, Sinnemaki & Karlsson 2008), и провокационным заявлением Дж. Маквортера о том, что «креольские грамматики - самые простые грамматики в мире» (McWhorter 2001). Сама же идея о том, что все языки одинаково сложны, была доказательно отвергнута социолингвистами, которые продемонстрировали, что языковой контакт может привести к упрощению языка. Это показано на примере африкаанс, пиджинов и койне. Если признать возможность упрощения языка, то отсюда неизбежно следует, что до упрощения язык был сложнее, чем после. И если язык может быть более или менее сложным на разных этапах своей истории, то очевидно, что одни языки могут быть более сложными, чем другие (Trudgill 2012).

В начале 2000-х гг. идея о лингвистической сложности и «догме равной сложности» начала активно обсуждаться на конференциях и семинарах (см. семинар «Сложность языка как развивающаяся переменная», организованный Институтом эволюционной антропологии им. Макса Планка в 2007 г. в Лейпциге ENA, June 6, 2022 https://www.eva.mpg.de/fileadmin/content_files/linguistics/pdf/ComplexityWS_Webpage 2007.pdf), в ряде журнальных статей (Shosted 2006,

Trudgill 2004) и монографий (Даль 2009, Kusters 2003, Miestamo et al. 2008, Sampson et al. 2009).

В России публикации по сложности языка до сих пор малочисленны и преимущественно представлены обзорами, выполненными зарубежными учеными, однако в последнее время некоторый интерес к данной проблеме начал возрастать. Из наиболее значимых следует указать на статью А. Бердичевского (2012) и рецензию на книгу Питера Трандгилла «Sociolinguistic Typology», опубликованную в 2011 г. (Вахтин 2014). Проблемы сложности языка обсуждались в Институте лингвистических исследований Российской академии наук (ИЛИ РАН) в 2018 г. на конференции «Балканские языки и диалекты: корпусные и квантитативные исследования».

Локальная и глобальная сложность

Развитие лингвистической комплексологии привело к выделению двух типов сложности: глобальной, т.е. сложности языка (или диалекта) в целом, и локальной сложности, т.е. сложности отдельного уровня языка или домена (Miestamo 2008). И если оценка глобальной сложности языка, по мнению ученых, является весьма амбициозной и, вероятно, безнадежной задачей, сравниваемой Г. Дойчером с «погоней за дикими гусями» (Deutscher 2009), то измерение локальной сложности рассматривается учеными как вполне выполнимая задача, состоящая в составлении перечня и оценке предикторов сложности, объективируемых на различных уровнях языка. Список предикторов фонологической сложности традиционно включает объем инвентаря фонем, частоту встречаемости маркированных Маркированными считаются фонемы, редко встречающиеся в языках мира (Бердичевский 2012). фонем, тональные различия, супрасегментные модели, фонотактические ограничения и максимальные кластеры согласных (Nichols 2009, Shosted 2006). При оценке морфологической сложности классическими «факторами неудобств» (термин Браунмюллера 1990: 627) признаны объем флективной морфологии языка (или языковой разновидности), специфика алломорфии и морфофонемных процессов и др. (Dammel & Kurschner 2008, Kusters 2003). Расчет синтаксической сложности осуществляется на основе данных о количестве предписываемых синтаксисом языка правил по принципу «чем больше, тем сложнее», а также способности языка порождать рекурсии и клаузы внутри синтаксического целого (Ortega 2003, Givon 2009, Karlsson 2009). Семантическая и лексическая сложность трактуется на основе следующих параметров: количества неоднозначных единиц языка, различия инклюзивных и эксклюзивных местоимений, лексического многообразия и др. (Fenk-Oczlon & Fenk 2008, Nichols 2009). Прагматическая, или «скрытая», сложность, имеющая в своей основе закон экономии, есть сложность умозаключений, необходимых для восприятия текстов на данном языке. Языки со скрытой сложностью допускают минималистские, весьма простые поверхностные структуры, интерпретация грамматических категорий в которых требует нетривиальных умозаключений. В качестве примера исследователи приводят языки Юго-Восточной

Азии, достигшие особенно высокой степени скрытой сложности, в частности за счет опущения местоимений, множественной кореференции в относительных предложениях, отсутствия маркеров отношений и «голых», без модификаторов, существительных с широким диапазоном интерпретаций (Bisang 2009).

Исследования показали, что высокие уровни локальной сложности одного уровня в языке необязательно влекут за собой низкую локальную сложность другого уровня, как это прогнозируется «догмой равной сложности». Например, анализ метрик морфологической и фонологической сложности в 34 языках, осуществленных Р. Шостедом, не выявил ожидаемой статистически значимой корреляции (Shosted 2006). А наблюдаемые Г. Фенк-Озлог и А. Фенком отдельные «балансирующие эффекты» (trade-offs) между локальными сложностями, к сожалению, также недостаточны, чтобы валидировать «догму равной сложности» языков. Г. Фенк-Озлог и А. Фенк, в частности, выявили, что в английском языке тенденция к фонологической сложности и односложности связана с тенденцией к омонимии и многозначности, к твердому порядку слов и идиоматичности речи (Fenk-Oczlon & Fenk 2008: 63). Д. Гил убедительно доказал, что изолирующие языки не обязательно компенсируют простую морфологию более сложным синтаксисом (Gil 2008).

Факторы (или предикторы) сложности языка принято делить на внутренние и внешние. Внутренними факторами сложности признаются количество элементов и категорий в языке, избыточность и нерегулярность языковых категорий. При оценке внутренней сложности в современных исследованиях весьма распространенным является так называемый «списочный подход», при котором ученые составляют список языковых явлений, присутствие которых в языке увеличивает степень его сложности, т.е. фактически списки предикторов внутренней сложности суть списки локальной сложности, описанной выше. Например, список предикторов сложности, составленный Дж. Николз, содержит более 18 параметров и включает фонологические, морфологические, синтаксические и лексические параметры (Nichols 2009). Язык считается более сложным, если в нем больше маркированных фонем, тонов, синтаксических правил, грамматически выраженных семантических и/или прагматических различий, морфофонемных правил, больше случаев дополнения, алломорфии, согласования и др. Ученых, работающих в рамках данного направления, интересует, например, количество грамматических категорий в языке (Shosted 2006), число фонематических оппозиций (McWhorter 2008), длина «минимального описания» системы языка (Даль 2009). Для иллюстрации упрощения языка при утрате предиктора Макуортер (2001) сравнивает порядок слов, т.е. позицию глагола в германских языках, доказывая, что синтаксис английского языка имеет более низкую степень сложности, чем шведский и немецкий. Причина положения состоит в утрате английским языком правила V2 (verb-second), в соответствии с которым личный глагол в шведском и немецком занимает второе место в предложении.

В качестве «избыточных» внутренних предикторов сложности признаются элементы и функции в системе языка, которые несут «дублирующую» информацию или «излишнюю спецификацию», букв. overspecification, и поэтому являются коммуникативно необязательными элементами (McWhorter 2008). П. Традгилл именует такого рода элементы «историческим багажом», букв. historical baggage (Trudgill 1999: 149), В.М. Жирмунский - «гиперхарактеризацией» (Жирмунский 1976), Макуортер - «декоративным украшением», букв. ornamental elaboration, или «барочными образованиями», букв. baroque accretion[s] (McWhorter 2001). В качестве иллюстрации синтагматической избыточности традиционно называют косвенную (непрямую) номинацию и «семантическое согласование». Иллюстрацией парадигматической избыточности в языке выступает синтетическое выражение грамматических категорий, например маркирование при согласовании (Избыточность в грамматическом строе языка) и маркирование обвиатива (см. McWhorter 2001).

Нерегулярность или «непрозрачность» формои словообразовательных процессов как внутренний фактор сложности языка (см. Muhlhausler 1974) реализуется в нерегулярных аффиксах, встречающихся в отдельных словах (приставки па(пасынок), су(сумрак), низ(низводить), суффиксы -таш (патронташ), -ичок (новичок), -арник (кустарник) (см. Казак 2012).

Внешними факторами, детерминирующими сложность языка, признаются культура, возраст языка и языковые контакты. Считается, что старые языки, обслуживающие хорошо развитые многоуровневые культуры, являются более сложными, поскольку аккумулировали «зрелые языковые черты», букв. mature language features (термин О. Даля (2009) (Deutscher 2010, Parkvall 2008). Вместе с тем существенное влияние на сложность языков оказывают интенсивные контакты между языковыми сообществами. В начале нашего столетия П. Традгилл заявил, что «небольшие, изолированные сообщества с низким уровнем контактов, имеющие тесные социальные сети», развивают более сложные языки, чем сообщества с высоким уровнем контактов (Trudgill 2004: 306). Однако в своей более поздней работе исследователь уточняет, что динамика развития сложности языков при их взаимодействии определяется длительностью контактов и возрастом носителей, осваивающих суперстрат: упрощение языка имеет место при кратковременных контактах сообществ, когда иностранный (второй) язык усваивают взрослые. Усложнение языка может иметь место в тех случаях, когда контакт долговременный, а второй язык осваивается не взрослыми, а детьми (Trudgill 2011). Для доказательства влияния языковых контактов на сложность языка Б. Кортман и Б. Смречаньи (2004) сравнивают способы реализации 76 морфосинтаксических параметров, включая количество местоимений, модели именных групп, время и вид, модальные глаголы, морфологию глагола, наречия, способы выражения отрицаний, согласование, порядок слов и др., в 46 вариантах английского языка. Ученые делят все варианты английского языка на три большие группы: (1) родные для их носителей и выполняющие все функции в языковом сообществе; (2) языки, функционирующие как второй официальный язык государства, и (3) креольские языки, имеющие в основе английский. Исследование подтвердило, что третья группа языков, т.е. креольские языки, имеющие в основе английский язык, наименее сложны, разновидности английского как родного (первого) языка являются наиболее сложными, а разновидности английского языка, используемого носителями в качестве второго языка, демонстрируют промежуточную сложность (Kortmann & Szmrecsanyi 2004).

В самых общих чертах аналитические методы оценки сложности делятся на абсолютные (теоретико-ориентированные и трактуемые как «объективные») и относительные (ориентированные на пользователя и, таким образом, «субъективные Характеристика этого типа сложности как субъективной может быть принята условно, поскольку она является вполне объективной для всех участников коммуникации. Более подходящим являлось бы определение этого типа сложности как «индивидуальной».») (Crossley et al. 2008). Абсолютный подход популярен в лингвистической типологии и используется для оценки сложности языка, в то время как в социолингвистике и психолингвистике используется относительный подход. П. Традгилл определяет относительную сложность как трудность изучения иностранного языка взрослыми (Trudgill 2011: 371). Сложность текста как конструкт также моделируется в дискурсологии, лингвистической персонологии, в психолингвистике и нейролингвистике. При этом изучается относительная сложность (трудность) текста для разных категорий реципиентов в различных условиях коммуникации, а также абсолютная и относительная (сравнительная) сложность текстов, генерируемых различными авторами (см. McNamara et al. 1996, Солнышкина 2015).

Краткий обзор статей выпуска

Современный подход к оценке сложности текстов характеризуется использованием как комплекса лингвистических методов исследования, так и достаточно сложного аппаратного и программного инструментария. Основные идеи весьма полно представлены в настоящем выпуске. Важным способом объективной оценки сложности текста для читающего является методика отслеживания движения глаз, осуществляемого с помощью специального оборудования - систем айтрекинга. Для русского языка исследования в этом направлении только начинаются. В качестве базовой ученые вудвигают задачу выбора параметров текста и глазодвигательной активности, а также меры сложности восприятия текста. Обычно в качестве параметров текста выбираются средняя длина слов и средняя частотность, а в качестве параметров глазодвигательной активности: относительная скорость чтения слова, длительность фиксаций и количество фиксаций. Мерой читабельности текста является скорость чтения вслух в словах в минуту. Айтрекингу посвящены статьи А.Н. Лапошиной с соавторами и А.А. Бонч-Осмоловской с соавторами.

В первой из вышеуказанных работ показано, что число фиксаций на слове коррелирует с его длиной, а длительность фиксаций - с частотностью. Вторая статья посвящена более сложным элементам текста - элементарным дискурсивным единицам (ЭДЕ), трактуемой как «квант устного дискурса, минимальный шаг, при помощи которого говорящий продвигает дискурс вперед» (Подлесская, Кибрик 2009: 309). Структура ЭДЕ также влияет на читабельность текста и это фиксируется с помощью айтрекинга.

Оценке сложности текстов с помощью наиболее современных методов глубокого обучения нейронных сетей посвящены работы Д. Корталеску с соавторами, С.А. Шарова, Д.А. Морозова с соавторами и В.В. Иванова с А.В. Абрамовым. Объект исследования - тексты, предназначенные для изучающих русский язык как иностранный. Точная оценка их сложности позволит правильно выбирать тексты в той или иной образовательной ситуации. Как отмечалось в первом разделе статьи, в качестве инструмента исследований используется, в первую очередь, модель BERT. Ее применение позволяет достичь высокой точности в определении сложности этого типа текстов - 91-92%.

Применение нейронных сетей предполагает успешное решение важной исследовательской лингвистической проблемы, а именно, определение признаков текстов, влияющих на решение нейронной сети. Один из возможных подходом состоит в том, чтобы вычислить коэффициенты корреляции ряда лингвистических признаков текста с оценками сложности текста нейронной сетью. Исследование на обширном материале коллекций текстов разных жанров на английском и русском языках с учетом десятков языковых признаков позволило обнаружить ряд неочевидных эффектов. Например, оказалось, что большее число предлогов ассоциируется с более сложными текстами в русском и с более простыми текстами в английском. Очевидно, это связано с различием в типологической структуре языков. Впрочем, на взаимосвязь языковых признаков текста с его сложность даже в большой мере влияет жанр текста.

Широкий обзор применения иных средств компьютерной лингвистики в проблематике сложности текстов дан в работе М.И. Солнышкиной с соавторами. В этой работе описана динамика развития и предложена периодизация в виде 6 парадигм дискурсивной комплексологии: формирующей, классической, периода закрытых текстов, структурно-когнитивного периода, периода обработки естественного языка, периода искусственного интеллекта.

Важной отличительной особенностью статей данного спецвыпуска и его вклада в дискурсивную комплексологию является учет огромного числа разнообразных данных: несколько сот языковых признаков, разные языки, разные корпусы текстов, разные жанры. Сложность текста рассматривается на нескольких уровнях: лексическом, морфологическом, синтаксическом, дискурсивном. Столь многоплановые исследования позволяют глубже понять природу самого понятия сложность текста. В статьях выпуска используются не только уже существующие готовые корпусы текстов и словари, но описывается создание новых.

Степень абстрактности также рассматривается в качестве важнейшего параметра сложности текста. Чем больше абстрактных слов текст содержит, тем он сложнее. Это означает необходимость создания словарей абстрактной/конкретной лексики и средств расчета степени абстрактности текста. Ранее словари абстрактных/конкретных слов были созданы для английского и некоторых других языков, но не для русского. В статье В.Д. Соловьева с соавторами подробно описывается методология создания такого словаря для русского языка. Показано, как этот словарь может быть использован и в других исследованиях, кроме проблематики сложности.

Лингвистическая сложность представляет собой междисциплинарную проблему, которая изучается не только компьютерной лингвистикой, но также в рамках нескольких научных направлений: философии, прикладной лингвистики, психологии, нейролингвистики. В XXI в. проблематика сложности обрела собственный терминологический аппарат, разработала и верифицировала широкий спектр лингвистических параметров сложности, а основным достижение новой парадигмы стала валидация когнитивных предикторов сложности, поднявшая проблематику текста на новый уровень - уровень дискурса. Этот успех, а также междисциплинарный подход к проблеме позволили интегрировать исследования сложности дискурса в отдельную область - дискурсивную комплексологию. Проблематики сложности - не «вещь в себе», поскольку результаты исследований релевантны как для лингвистического анализа текста, так и для прогнозирования успешности восприятия информации в широком спектре прагмалингвистических ситуаций.

...

Страница:

статья "Computational linguistics and discourse complexology: paradigms and research methods" скачать

Подобные документы

Legal linguistics
Legal linguistics as a branch of linguistic science and academic disciplines. Aspects of language and human interaction. Basic components of legal linguistics. Factors that are relevant in terms of language policy. Problems of linguistic research.

реферат [17,2 K], добавлен 31.10.2011
Categorization and conceptualization of experience
Categorization is a central topic in cognitive psychology, in linguistics, and in philosophy, precisely. Practical examples of conceptualization and categorization in English, research directions of these categories in linguistics at the present stage.

презентация [573,5 K], добавлен 29.05.2015
Methods of concept description
New scientific paradigm in linguistics. Problem of correlation between peoples and their languages. Correlation between languages, cultural picularities and national mentalities. The Method of conceptual analysis. Methodology of Cognitive Linguistics.

реферат [13,3 K], добавлен 29.06.2011
The relation between stylistics and linguistics
Style as a Linguistic Variation. The relation between stylistics and linguistics. Stylistics and Other Linguistic Disciplines. Traditional grammar or linguistic theory. Various linguistic theories. The concept of style as recurrence of linguistic forms.

реферат [20,8 K], добавлен 20.10.2014
Theoretical phonetics
Phonetics as a branch of linguistics. Aspects of the sound matter of language. National pronunciation variants in English. Phoneme as many-sided dialectic unity of language. Types of allophones. Distinctive and irrelevant features of the phoneme.

курс лекций [6,9 M], добавлен 15.04.2012
Usages of a concordance
The definition of concordance in linguistics as a list of words used in a body of work, or dictionary, which contains a list of words from the left and right context. The necessity of creating concordance in science for learning and teaching languages.

контрольная работа [14,5 K], добавлен 18.01.2012
Netlinguistics
Concept of Contractions: acronyms, initialisms. Internet Slang. Sociolinguistics, its role in contractions. Lexicology - a Branch of Linguistics. Comparison. Contraction Methods. Formal Writing Rules. Formal or Informal Writing. Concept of Netlinguistics.

курсовая работа [339,2 K], добавлен 01.02.2016
Metaphoric Representation of the Concept "Beauty" in English Proverbs
The term "concept" in various fields of linguistics. Metaphor as a language unit. The problem of defining metaphor. The theory of concept. The notion of concept in Linguistics. Metaphoric representation of the concept "beauty" in English proverbs.

курсовая работа [22,2 K], добавлен 27.06.2011
Guidelines on the practice of English
Development of guidelines for students of the fifth year of practice teaching with the English language. Definition of reading, writing and speaking skills, socio-cultural component. Research issues in linguistics, literary and educational studies.

методичка [433,9 K], добавлен 18.01.2012
Grammar of the Text: its Basic Units and Main Features (based on the novel by David Nicholls "One Day")
Text and its grammatical characteristics. Analyzing the structure of the text. Internal and external functions, according to the principals of text linguistics. Grammatical analysis of the text (practical part based on the novel "One day" by D. Nicholls).

курсовая работа [23,7 K], добавлен 06.03.2015
Stylistic Peculiarities in a Newspaper Discourse
The ways of expressing evaluation by means of language in English modern press and the role of repetitions in the texts of modern newspaper discourse. Characteristics of the newspaper discourse as the expressive means of influence to mass reader.

курсовая работа [31,5 K], добавлен 17.01.2014
General Characteristics of Lexicology
The connection of lexicology with other branches of linguistics. Modern Methods of Vocabulary Investigation. General characteristics of English vocabulary. The basic word-stock. Influence of Russian on the English vocabulary. Etymological doublets.

курс лекций [44,9 K], добавлен 15.02.2013
The speech act of gratitude in dialogic discourse
Act of gratitude and its peculiarities. Specific features of dialogic discourse. The concept and features of dialogic speech, its rationale and linguistic meaning. The specifics and the role of the study and reflection of gratitude in dialogue speech.

дипломная работа [66,6 K], добавлен 06.12.2015
Political discourse
The study of political discourse. Political discourse: representation and transformation. Syntax, translation, and truth. Modern rhetorical studies. Aspects of a communication science, historical building, the social theory and political science.

лекция [35,9 K], добавлен 18.05.2011
Phonetics as a branch of linguistics
Language as main means of intercourse. Cpornye and important questions of theoretical phonetics of modern English. Study of sounds within the limits of language. Voice system of language, segmental'nye phonemes, syllable structure and intonation.

курсовая работа [22,8 K], добавлен 15.12.2010
Cultural and linguistic features of the use of animalism to the concept BIRD in English and Ukrainian
The concept as the significance and fundamental conception of cognitive linguistics. The problem of the definition between the concept and the significance. The use of animalism to the concept BIRD in English idioms and in Ukrainian phraseological units.

курсовая работа [42,0 K], добавлен 30.05.2012
Gender discourse in modern English and Russian belles-letters
Theories of discourse as theories of gender: discourse analysis in language and gender studies. Belles-letters style as one of the functional styles of literary standard of the English language. Gender discourse in the tales of the three languages.

дипломная работа [3,6 M], добавлен 05.12.2013
Polysemy in English and Ukrainian
Lexicology, as a branch of linguistic study, its connection with phonetics, grammar, stylistics and contrastive linguistics. The synchronic and diachronic approaches to polysemy. The peculiar features of the English and Ukrainian vocabulary systems.

курсовая работа [44,7 K], добавлен 30.11.2015
Speech act of gratitude as a speech ritual in modern English
Theoretical aspects of gratitude act and dialogic discourse. Modern English speech features. Practical aspects of gratitude expressions use. Analysis of thank you expression and responses to it in the sentences, selected from the fiction literature.

дипломная работа [59,7 K], добавлен 06.12.2015
Research methods to collect primary empirical information
Research methods are strategies or techniques to conduct a systematic research. To collect primary data four main methods are used: survey, observation, document analysis and experiment. Several problems can arise when using questionnaire. Interviewing.

реферат [16,7 K], добавлен 18.01.2009

Другие документы, подобные "Computational linguistics and discourse complexology: paradigms and research methods"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.