Computational linguistics and discourse complexology: paradigms and research methods
The modern areas of research in computational linguistics and linguistic complexology and definition a solid rationale for the new interdisciplinary field, discourse complexology. Contribution of theoretical linguistics to computational linguistics.
Одной из таких ситуаций является когнитивный анализ ошибок, допускаемых при изучении иностранного языка. Этой проблематике посвящены работы О.Н. Ляшевской с соавторами и Л. Янды с соавторами. В них исследования выходят на уровень взаимосвязей между сложностью текстов и когнитивными ресурсами, необходимыми для их понимания. В первой работе получен следующий интересный результат: чем сложнее используемые обучающимся аффиксы, тем меньше он допускает ошибок в текстах. Во второй работе описана компьютерная система, предназначенная для анализа и адекватного объяснения ошибок изучающего русский язык как иностранный.
Успехи компьютерной лингвистики последних лет во многом обеспечили достижения дискурсивной комплексологии и позволили ученым не только автоматизировать ряд операций лингвистического анализа, но и создать удобные для пользователей профайлеры текстов. Такие инструменты, как ReaderBench, Coh-Metrix и RuMOR (подробно описанные в статьях данного выпуска) способны решать как исследовательские, так и практические задачи: осуществлять подбор текстов для целевой аудитории, редактировать и сокращать тексты, производить анализ когнитивных причин возникновения ошибок и даже предлагать стратегии вербального поведения. Алгоритмы, используемые разработчиками при создании инструментов автоматического анализа текстов, имеют в своей основе классические методы и методы машинного обучения, включая нейронные сети глубокого обучения и одну из новейших систем - систему BERT. В настоящее время, и это хорошо показано в ряде статей спецвыпуска, ученые успешно совмещают методы машинного обучения и «параметрического подхода».
Однако важнейшей особенностью современных исследований является значительное расширение научной проблематики и повышение точности расчетов за счет способности искусственных нейронных сети к обучению и модификации. Прорыв в области искусственного интеллекта был обусловлен тремя основными факторами: появлением новых, более совершенных алгоритмов самообучения, повышением скорости работы компьютеров, многократным увеличением объема данных для обучения. Современные базы данных, а также разработанные в последние годы словари и инструменты для русского языка позволили авторам спецвыпуска обратиться и успешно решить целый ряд проблем в области сложности текста.
Еще одним фундаментом успеха в области сложности текста послужили открытия ученых когнитологов, сделанные в начале нашего века и навсегда поменявшие научную парадигму комплексологии. Если основным достижением комплексологии текста XX в. являлся вывод о том, что «разные типы текстов сложны по-разному», то дискурсивная комплексология XXI в. не только сумела предложить и верифицировать предикторы сложности для различных типов текстов, но разработала инструментарий для оценки относительной сложности текста в различных коммуникативных ситуациях. С обращением к когнитивным наукам комплексология обрела две дополнительные переменные: языковую личность читателя и коммуникативную ситуацию процесса чтения.
Новая исследовательская парадигма лингвистической комплексологии также отражена в тех работах спецвыпуска, которые посвящены поиску новых критериев сложности текста: на смену экспертной оценке, тестам на понимание и скорости чтения пришли новые методы, позволяющие выявлять дискурсивные единицы, влияющие на сложность восприятия текста.
Исследования, публикуемые в специальном выпуске высветили и основные проблемы, стоящие перед отечественной лингвистической комплексологией: создание матрицы сложности текстов различных типов и жанров, расширение списка предикторов сложности, валидация новых критериев сложности, расширение баз данных для русского языка.
