Прикладная лингвистика. Моделирование языковых процессов

Лингвистические аспекты искусственного интеллекта. Характеристика текстовых процессоров. Исследование особенностей искусственных языков. Методика обучения родному языку. Стихотворный текст в лингвистике. Моделирование статистических параметров языка.

Рубрика Иностранные языки и языкознание
Вид лекция
Язык русский
Дата добавления 02.09.2013
Размер файла 58,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Распознавание образов. Человеку свойственно классифицировать окружающий его материальный мир. Бесчисленное множество различных объектов он объединяет в группы. Два различных яблока, не очень похожих друг на друга, человек называет одним словом -- яблоко. А груша, может быть, очень похожая на яблоко, тем не менее -- груша.

Предполагается, что в процессе мышления человек создает некие эталонные образы объектов и групп объектов, с которыми имеет дело, и, сравнивая образ рассматриваемого объекта с эталонными образами, относит этот объект к той или иной группе. Такое действие и называется распознаванием образов.

Самое главное для решения проблемы распознавания образов -- это найти ответ на два очень сложных вопроса: как создается эталонный образ (т.е. как человек членит, классифицирует мир) и какие отличия образа объекта от эталона являются существенными, а какие нет?

Человек имеет различные каналы получения информации об окружающей его действительности -- зрительный, слуховой, осязательный и др., поэтому у него могут формироваться образы различных типов, и проблема их распознавания распадается на отдельные проблемы: распознавание зрительных образов, распознавание акустических образов и т.д.

Не следует думать, что эти исследования так и остались исследовательской абстракцией. Наиболее простой и понятный пример применения данных разработок для широкого использования - это системы оптического распознавания текста (тот же Файнридер).

Общение человека и компьютера. Одна из наиболее важных проблем искусственного интеллекта определяется необходимостью обеспечить общение человека с машиной на естественном языке. Актуальность ее состоит не только в том, что любое продвижение вперед в данной области приближает нас к созданию искусственного интеллекта и вносит вклад в развитие общей теории мышления, но и в том, что даже частичное, с существенными ограничениями ее решение может быть использовано для многочисленных практических применений, таких, как создание естественно-языковой надстройки для информационно-поисковых диалоговых систем, автоматизированных систем управления и других систем, для эксплуатации которых сегодня требуется изучать специальные языки, пользоваться специальными словарями и т.д.

Таким образом, из широкого спектра задач искусственного интеллекта важнейшей для прикладной лингвистики является проблема моделирования речевой деятельности человека, анализа и синтеза речи.

Терминоведение и лексикография

Лексикография -- раздел языкознания, занимающийся практикой и теорией составления словарей.

Словарь -- справочная книга, которая содержит слова (морфемы, словосочетания, идиомы и т.д.), расположенные в определенном порядке, объясняет значения описываемых единиц, дает различную информацию о них или их перевод на другой язык либо сообщает сведения о предметах, обозначаемых ими.

В центре внимания лексикографии находятся методы создания словарей. В отличии от лексикологии - теоретической дисциплины, являющейся частью семантики и занятой разработкой методов описания значения слов (в том числе и методов их толкования), проблематика лексикографических работ лежит в сфере словарной практики. Центр ее интереса - способы организации словарной статьи, устройство словарей и технология их создания. Лингвисты принимают участие как в разработке лингвистических (филологических) словарей, так и в создании энциклопедических изданий. Национальные словарные проекты толковых и орфографических словарей тесно связаны с государственной языковой политикой, также представляющей собой одну из областей прикладной лингвистики.

Современная лексикография существенно расширила и усилила свой инструментарий компьютерными технологиями создания и эксплуатации словарей. Это направление прикладной лингвистики получило название компьютерной лексикографии. Специальные программы - базы данных, компьютерные картотеки, программы обработки текста - позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее. Множество различных компьютерных лексикографических программ можно разделить на две большие группы: программы поддержки лексикографических работ и автоматические словари различных типов, включающие лексикографические базы данных. Создание компьютерных словарей значительно расширило возможности лексикографии в плане информативности словарных статей. Появилась возможность создания перекрёстных ссылок гипертекстового типа (при нажатии на ссылку открывается другая словарная статья или комментарий), подключения дополнительных баз данный профессиональной лексики, стала возможной обратимость переводного словаря (когда, например, англо-русская словарная статья легко превращается в русско-английскую; бумажные словари по определению «необратимы»: англо-русский и русско-английский словари - это два принципиально разных словаря).

Предметом исследования и описания терминографии является терминология, соотносящаяся в широком понимании с областью всех терминов естественного языка, а в узком - с терминами той или иной конкретной научной дисциплины или специальной области практической деятельности человека. В рамках отдельной теории термины образуют терминосистему. Термины можно определить как слова (или словосочетания) метаязыка науки и приложений научных дисциплин, а также слова, обозначающие специфические реалии конкретных областей практической деятельности человека. Обычно понятие термина задается через его свойства, реализуемые в терминосистеме. В отличие от обычной лексики, использование терминов в идеальном случае основывается не на интуиции, а на явным образом задаваемых определениях. Терминологические словари - один из результатов терминографии - сближают это направление прикладной лингвистики с лексикографией.

Прикладная лингвистика и перевод

Наука о переводе (англ. translation studies; нем. Ubersetzungswissenschaft или Translationswissenschaft) включает несколько направлений, среди которых выделяются теория перевода, анализ перевода, методика обучения переводу. Особое место занимает машинный перевод - научная и одновременно технологическая дисциплина, связанная и с наукой о переводе, и с компьютерной лингвистикой. Как и многие другие разделы прикладной лингвистики, наука о переводе по существу междисциплинарна и часто заимствует идеи не только из лингвистики, но и из литературоведения, когнитивных наук и культурной антропологии. По характеру переводческой деятельности традиционно выделяются устный и письменный перевод. Хотя с лингвистической точки зрения между этими видами перевода принципиальной разницы нет, психологически они сильно отличаются друг от друга. Прикладной аспект теории перевода связан, в первую очередь, с выявлением проблем несоответствия между грамматическими и лексическими системами различных языков, а также с различиями в прагматическом аспекте функционирования языковой системы. Сюда относятся сложности в категоризации действительности, обусловленные грамматическими особенностями различных языков (например, несовпадение набора грамматических категорий), спецификой лексического значения и т.п. Важнейшая лингвистическая проблема науки о переводе - адекватная передача так называемых «скрытых категорий» - категории неотчуждаемой принадлежности, определенности-неопределенности и пр. Будучи в одних языках грамматическими, в других языках эти аспекты значения могут выражаться не регулярно, а лишь при определенных условиях, что существенно осложняет работу переводчика.

Машинный перевод

Машинный перевод -- выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия.

История машинного перевода (по работам Л.Н. Беляевой и М.Н. Откупщиковой). В истории машинного перевода традиционно выделялись два подхода: первый, связанный с индуктивным построением систем машинного перевода, с использованием в первую очередь доступной информации лингвистического характера, без априорных дедуктивных построений, ориентированный на использование переводных соответствий в рамках данной языковой пары; и второй -- с декларированным преобразованием входного предложения через использование эксплицитного языка смысла в выходное предложение, передающее тот же смысл, что и входное, но необязательно теми же или эквивалентными (по структуре) языковыми средствами. Первый подход носил в разное время разные наименования: подход «грубой силы», инженерный подход, селективная стратегия, методы воспроизводящего инженерно-лингвистического моделирования, лексический подход, «прямой» метод и пр., иногда эти наименования имели негативные или пренебрежительные оттенки. Второй подход, появившийся позже первого, также имел разные варианты названий (соответственно и определенные различия в технике анализа и синтеза), например: глобальные стратегии, подход «смысл--текст», перевод с использованием семантических множителей, глубинного языка смысла и т.д. В настоящее время есть все основания констатировать, что в практическом применении машинного перевода и в перспективах развития его как части информационного обслуживания приходится иметь дело только с первым подходом, поскольку второй не ассоциируется более с действующими системами машинного перевода или вообще с машинным переводом -- все действующие в мире его системы так или иначе построены по принципу передачи определенных переводных соответствий в заданной паре языков, и нет ни одной действующей системы в рамках второго подхода. Это не означает, однако, что второй подход не дал позитивных результатов для проблемы машинного перевода в целом.

Рассматривая машинный перевод с точки зрения его реального вклада в развитие науки и техники, следует остановиться прежде всего на аспекте экономическом. Экономически машинный перевод способствует научно-техническому прогрессу, ускоряя и удешевляя получение иностранной информации на растущем из года в год рынке научно-технических переводов. Однако машинный перевод не представляет собой нечто самостоятельное, не зависящее от окружающей среды. У него лишь свои, особые требования ко всей установившейся системе научно-технического перевода и научно-технической информации в целом. Широкий спектр информационных услуг, которые может оказать и уже оказывает машинный перевод, -- избирательное распределение неотредактированных переводов в целях сигнального оповещения, перевод заголовков, рубрик, аннотаций и пр. в оперативном режиме -- предполагает формирование новых норм обращения с информацией посредством определенного учета информационных потребностей заказчика. При этом главный экономический эффект собственно машинного перевода пропорционален уменьшению вложенного в редактирование человеческого труда и, соответственно, прямо зависит от повышения качества машинного продукта. Последнее является следствием эффективности лингвистической модели, лежащей в основе алгоритма.

Лингвистические модели машинного перевода. Современные лингвистические концепции, лежащие в основе алгоритмических моделей современных систем машинного перевода, обычно идут не глубже так называемого этапа трансфера, т.е. переводных соответствий в рамках конкретной языковой пары. Практика внедрения и использования систем машинного перевода требует совершенствования лингвистического обеспечения этих систем в части словарей и алгоритмов анализа и синтеза текстов. По мнению некоторых специалистов, актуальным становится формирование теории машинного перевода, которая позволила бы проверять гипотезы на практике. Как традиционная теория перевода начинает использовать приемы, методы и результаты различных лингвистических дисциплин -- функциональной и контрастивной лингвистики, социо- и психолингвистики, -- так и теория машинного перевода может быть создана только с учетом содержательного анализа методов и результатов таких дисциплин, как лингвистическая теория перевода, теория научно-технического перевода, прикладная лингвистика, когнитология. Подобный учет в аспекте действия систем машинного перевода в существующих сетях научно-технической информации определил главное направление совершенствования лингвистических моделей, а именно -- выявление закономерностей перевода с одного естественного языка на другой на уровне собственно переводных соответствий. Стало очевидным, что перевод принципиально отличается от смыслового толкования высказывания, от его представления на языке смысла. Опыт систем, которые базировались на смысловом представлении как цели анализа и на движении от глубинного смыслового представления к поверхностной структуре, показывает, что такое движение связано со значительными потерями информации, которая впоследствии должна быть снова восстановлена. В этом отношении наиболее показателен опыт Гренобльской группы во Франции, которая, принципиально придерживаясь эксплицитно смыслового подхода, при разработке практических систем прибегает к переводу на уровне переводных соответствий. Именно этим обстоятельством -- необходимостью возврата к поверхностной структуре от глубинной -- и объясняется отсутствие практических систем машинного перевода в рамках второго подхода; подобный возврат связан с необходимостью запоминать последовательно все шаги от структуры входного предложения к глубинной и затем от глубинной к поверхностной структуре выходного языка.

Издательское дело

Издательское дело -- отрасль культуры и производства, связанная с подготовкой, выпуском и распространением книг, журналов, газет, изобразительных материалов и других видов печатной продукции.

Автоматизация издательского дела. Автоматизация издательского процесса не только позволяет переложить на «плечи» компьютеров воспроизведение текста авторского оригинала в полиграфическом виде, но и разрешает автоматизировать целый ряд процессов его лингвистической обработки. Рассмотрим эти процессы с позиции В.В. Партыко. Компьютеризированная технология выпуска изданий несколько изменила границы и специфику этапов традиционной технологии. В настоящее время можно выделить следующие этапы в данном технологическом процессе: авторский этап (состоит в записи автором текста своего произведения на машинный носитель информации); редакционный этап, который включает в себя: а) корректуру и редактирование текста авторского оригинала; б) редакционно-издательскую деятельность (рецензирование, обработку корреспонденции, поиск информации в базах данных и т.д.); этап конструирования (состоит в задании полиграфических параметров для каждого элемента текста: формата набора и полосы, кегля и гарнитуры шрифтов и т.д., а также меток для выделения элементов текста); этап полиграфического воспроизведения (состоит в отработке полиграфических параметров для каждого элемента текста с помощью компьютера); этап тиражирования, т.е. печатания текста в заданном количестве экземпляров (присутствует только при необходимости выпуска издания в традиционном «бумажном» виде); этап распространения (состоит в передаче информации из издательств к читателям с помощью носителей информации или через электронные каналы связи, что в целом образует издательскую сеть).

Как видим, лингвистическое обеспечение отсутствует лишь на чисто техническом этапе тиражирования, на остальных этапах оно в той или иной мере присутствует обязательно.

Поскольку этапы издания хронологически могут быть совмещены (например, автор, набирая текст, сам осуществляет на первом этапе предварительное редактирование текста), то одни и те же функции лингвистического обеспечения могут реализовываться на разных этапах.

Лингвистическое обеспечение отдельных этапов издательского процесса. На авторском этапе авторы для набора текста используют различные текстовые процессоры, т.е. программы, позволяющие набирать и модифицировать текст. В такие текстовые процессоры часто встраивают следующие лингвистические функции: поиск синонимов указанного автором слова и -- при необходимости -- автоматическая замена этого слова на синоним; поиск слов, содержащих ошибки или отсутствующих в эталонном орфографическом словаре; перенос слов при достижении заданного формата. Кроме того, на данном этапе можно автономно использовать толковые и энциклопедические словари, позволяющие осуществлять быстрый доступ к нужной автору словарной статье.

На редакционном этапе реализуются такие функции по обработке текста, как корректура и редактирование. Кроме того, параллельно с обработкой текста осуществляется редакционно-издательская деятельность. Перечисленные функции реализуются как в специально предназначенных для этих целей редакционно-издательских системах, так и в других типах используемых в процессе подготовки издания систем, в которые встроены эти функции.

Тексты произведений как объект корректуры и редактирования состоят из следующих элементов: простые тексты (графемы-буквы, морфемы, слова, словосочетания, предложения, сверхфразовые единства; блоки -- разделы, главы и т.п.; дискурс -- текст как целое); специальные тексты, например рубрики, сокращения, наименования единиц измерений и т.д.; сложные тексты, т.е. формулы и таблицы; тексты, образующие аппарат произведений (титульный лист, выходные сведения, указатели и т.д.); служебные тексты, т.е. метки элементов текста и команды полиграфического оформления.

Предметом обработки авторских текстов на данном этапе являются два процесса: 1) приведение текстов в соответствие с оригиналом; 2) приведение текстов в соответствие с существующими нормами. Первый принято называть корректурой, а второй -- редактированием. В корректуре и редактировании можно выделить два типа операций: а) контроля, т.е. нахождения отклонений; б) реконструкции, т.е. исправления отклонений, найденных в процессе контроля. Весь текст, таким образом, является объектом операций контроля, и только те его сегменты, в которых найдены отклонения, -- объектом операций реконструкции. Среди отклонений следует различать: а) искажения -- отклонения от оригинала; б) ошибки -- отклонения от норм; в) погрешности -- отклонения от оригинала и норм одновременно.

Лингвистическое обеспечение может быть разделено на автономное и системное. Автономное содержит толковый словарь, энциклопедические словари. Системное делится на блоки: опорная база данных, массив норм, программы.

Опорная база данных включает в себя: словари антонимов, синонимов, орфографический, словарь с морфологической, синтаксической, семантической и прагматической информацией (общеязыковой и отраслевой), словари эталонных переносов (для разных языков), списки морфем, единиц измерений, сокращений, персоналий, полиграфических команд, меток элементов текста, стандартных элементов библиографических описаний, специализированные информационно-поисковые языки, рубрикаторы. Массив норм содержит массивы лингвистических норм отдельно по уровням: графем, морфем, слов, словосочетаний, предложений, сверхфразовых единств, блоков, дискурса; психолингвистических норм для читателей с высоким уровнем подготовки, с низким уровнем подготовки; правил переноса (для разных языков). Каждый компонент структуры можно представить как отдельный объект, хотя некоторые компоненты могут быть совмещены (например, словарь с лингвистической информацией может быть совмещен с орфографическим словарем и словарем синонимов). Для этого есть все необходимые технические предпосылки.

Гипертекст

Развитие компьютерных технологий и, в частности, такого явления как электронный документы, привело к созданию особого вида текста, который не мог возникнуть в «бумажной» печатной продукции - гипертекст. Его главной отличительной особенностью является возможность создания перекрёстных ссылок и комментариев, открывающихся при нажатии на ссылку, оглавлений, позволяющих переходить по ссылке сразу к нужной странице и т.п. Проблематика гипертекста не столько сложна в настоящее время, как проблематика систем аннотирования и реферирования, но исключительно широко используется в практической деятельности от Интернет-сайтов, до электронных словарей.

Информационно-поисковые системы

Информационно-поисковые системы (ИПС) возникли в конце 1950-х - начале 1960-х годов как ответ на резкий рост объемов научно-технической информации. По типу хранимой и обрабатываемой информации, а также по особенностям поиска ИПС разделяются на две больших группы - документальные и фактографические. В документальных ИПС хранятся тексты документов или их описания (рефераты, библиографические карточки и т.д.). Фактографические ИПС имеют дело с описанием конкретных фактов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и другие виды представления данных. Существуют и смешанные ИПС, включающие как документы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). Для обеспечения информационного поиска в ИПС создаются специальные информационно-поисковые языки, в основе которых лежат информационно-поисковые тезаурусы. Развитие современных информационно-поисковых систем связано с разработкой ИПС бестезаурусного типа. Такие ИПС работают с пользователем на ограниченном естественном языке, а поиск осуществляется по текстам рефератов документов, по их библиографическим описаниям, а часто и по самим документам. Для индексирования в ИПС бестезаурусного типа используются слова и словосочетания естественного языка. В качестве информационно-поисковых систем мы можем рассматривать поисковые машины Сети Интернет, такие, как Яндекс, Гугл и другие, а также - электронные каталоги библиотек.

К области компьютерной лингвистики в определенной степени могут быть отнесены работы в области создания гипертекстовых систем, рассматриваемых как особый способ организации текста и даже как принципиально новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской традиции книгопечатания.

Политическая лингвистика

Предмет политической лингвистики - политический дискурс как совокупность дискурсивных практик, идентифицирующих участников политического дискурса как таковых или формирующих конкретную тематику политической коммуникации. Под дискурсивной практикой понимаются тенденции в использовании близких по функции, альтернативных языковых средств выражения определенного смысла. Эти тенденции, естественно, находят отражение в частоте употребления соответствующих феноменов фонетического, морфологического, синтаксического и семантического уровня. Очень близким аналогом в лингвистической поэтике можно считать понятие идиостиля писателя.

Дискурсивные практики с лингвистической точки зрения определяются устойчивыми наборами языковых средств вариативной интерпретации, свойственными данному политическому субъекту или характерными для обсуждения данного предмета. В этом смысле можно говорить о таких предметах политической лингвистики, как «дискурс Рейгана», «дискурс Горбачева», «тоталитарный дискурс», «дискурс безопасности», «дискурс свободы и справедливости», «парламентский дискурс». Иными словами, дискурс Рейгана - это совокупность дискурсивных практик Р.Рейгана, проявляющихся в его политических выступлениях, интервью и т.д. Тоталитарный дискурс - это совокупность дискурсивных практик, характерных для политического языка тоталитарного общества, а дискурс безопасности - совокупность дискурсивных практик, встречающихся в дискуссиях о безопасности государства и формирующих эти дискуссии как часть политического дискурса в целом.

Наиболее известные примеры дискурсов, на которых развивалась политическая лингвистика, - русский политический язык советской эпохи (Lingua Sovietica), дискурс Великой французской революции, политический язык «Третьего Рейха», «вьетнамский английский» в США в период вьетнамской войны.

Изучение политического языка было инициировано по крайней мере тремя факторами. Во-первых, внутренними потребностями лингвистической теории, которая с завидным постоянством в разные периоды истории лингвистики обращалась к реальным сферам функционирования языковой системы. «Примат речи» часто становился главным лозунгом реформаторов учения о языке. Во-вторых, чисто политологическими проблемами изучения политического мышления, его связи с политическим поведением; необходимостью построения предсказывающих моделей в политологии, а также разработки методов анализа политических текстов и текстов средств массовой информации для мониторинга различных тенденций в сфере общественного сознания. И, наконец, социальным заказом - мало результативными попытками освободить политическую коммуникацию от всякого рода манипуляций. Последний фактор одновременно стимулировал и становление теории речевого воздействия.

Теория речевого воздействия исследует механизмы вариативной интерпретации действительности не только в политическом языке, но и при функционировании языковой системы в любой сфере деятельности человека, будучи, тем самым, шире политической лингвистики и по постановке задачи, и по предмету исследования. Она, однако, не исследует сами дискурсивные практики, и в этом отношении оказывается уже политической лингвистики.

Наиболее значительны различия между теорией воздействия и политической лингвистикой в сфере приложений. Основные области приложения политической лингвистики в политологии связаны с изучением политического мышления политиков по языковым данным, а также реконструкция и мониторинг состояния общественного сознания по текстам средств массовой информации. Для работы с этими феноменами были разработаны специальные инструменты, среди которых наиболее известны методы контент-анализа и когнитивного картирования. Сущность контент-анализа заключается в том, чтобы по внешним - количественным - характеристикам текста на уровне слов и словосочетаний сделать правдоподобные предположения о его плане содержания и, как следствие, сделать выводы об особенностях мышления и сознания автора текста - его намерениях, установках, желаниях, ценностных ориентациях и т.д.

В политологии контент-анализ обычно используется для изучения когнитивных установок автора текста - его отношения к тем или иным событиям, понятиям, ценностным категориям и т.д. Типичный пример - исследование программ республиканской и демократической партии в их динамике по отношению к концепту «СВОЙ - ЧУЖОЙ». Превалирование «ЧУЖОГО» над «СВОИМ» позволяет сделать вывод о большей конфликтности политического дискурса, о наличии существенных проблем в межпартийных отношениях. И действительно, динамика реализации выделенного концепта коррелирует с динамикой политических конфликтов. Более того, пики «ЧУЖОГО» в партийных программах при отсутствии внешнего конфликта часто указывает на наличие внутреннего конфликта.

Когнитивное картирование как методика политологии и социальных наук развивалось в 1970-1980-х годах работах американского социолога и политолога Р.Аксельрода и его коллег в США и Скандинавии. Когнитивное картирование позволяет выявить представленную в политических текстах структуру каузального рассуждения (что чему способствует/препятствует, что из чего следует и т.п.) и на основании этого делать выводы о мышлении автора текста и его видении политической ситуации. Фактически когнитивное картирование позволяет определить факторы, которые учитывают политики при принятии решений. Стратегия выбора факторов и задает возможную типологию политического мышления.

К данному направлению прикладной лингвистики примыкает судебная лингвистика: в её компетенцию входит анализ текстов на наличие оскорблений, экстремистских высказываний, различного рода подстрекательства, мошенничества и т.п. При этом, следует помнить, что судебно-лингвистическая экспертия - не единственный случай применения знаний лингвистов в интересах правосудия.

Прикладное речеведение

Особым направлением а прикладной лингвистике является прикладное речеведение. Области его применения - автоматическое распознавание речи, синтез речи, идентификация говорящего по голосу и речи, диагностика лжи по речи и целый ряд других. Эта область знания охватывает целый ряд дисциплин: фонетику, психологию, физиологию акустику, социолингвистику, коммуникативную и когнитивную лингвистику и др. Принципиальная междисциплинарность области прикладного речеведения обусловлена исключительной сложностью объекта исследования и моделирования, каким является звучащая речь.

Анализ и синтез речи

Устная речь представляет собой наиболее удобный и естественный способ общения человека с компьютером, не требующий специального обучения. При этом используются не только все преимущества устного общения по сравнению с письменной речью (освобождаются руки, зрение, не нужны специальные инструменты и освещение, применяются стандартные каналы связи, например, телефон), но и появляются широкие возможности для гибкого взаимодействия с компьютером (без применения клавиатуры, "мыши", экрана монитора и т. д.). За последние 10--15 лет произошли заметные изменения в компьютерных технологиях синтеза и распознавания речи, обусловленные постоянно растущими возможностями компьютерной техники, совершенствованием математического аппарата и более глубоким пониманием реальных процессов порождения и понимания речи человеком.

К середине 90-х годов ученые перешли от исследований и лабораторных испытаний к промышленным разработкам. В международной компьютерной сети Интернет собирается информация о последних достижениях в сфере речевых технологий. Однако говорить о том, что с компьютером можно общаться так же, как мы общаемся друг с другом, пока нельзя. В каких же случаях "говорящие", "слышащие и понимающие человеческую речь" машины могут помочь человеку?

Области применения речевых технологий

В качестве главных стратегических направлений в развитии речевых технологий выделяются:

создание человеко-машинных интерфейсов с устным вводом/выводом информации;

речевое управление компьютером и другими техническими устройствами (особенно в экстремальных, опасных для человека условиях);

организация информационно-справочной службы, позволяющей получать и выдавать различную информацию из базы данных в условиях, когда вопрос задается голосом (на транспорте, в медицине, банковской службе);

создание устройств для приема и озвучивания различных сообщений, например, писем электронной почты по телефону;

многоязычный устный ввод/вывод речевой информации с автоматическим переводом;

разработка приспособлений и компьютерных систем для помощи инвалидам (слепым, глухим, немым, парализованным);

создание "автоматической машинистки" -- машины, которая распознает произвольное речевое сообщение и записывает его в обычном текстовом виде;

озвучивание корректур и исправление орфографических ошибок;

помощь в обучении иностранному языку (автоматические фонетические тренажеры).

Речевые технологии используются также в более сложных системах искусственного интеллекта, воспроизводящих элементы порождения и понимания речи человеком.

Большое значение речевые технологии имеют и для научных исследований. Участвуя в создании систем автоматического синтеза и распознавания речи, ученые имеют возможность проверить на практике правильность теоретических представлений об устройстве звукового механизма речи и его отдельных частей (звуковой системы языка, рече-производящего механизма и механизма звукового восприятия), выявить недостающие знания, слабую определенность используемых понятий и т. д.

Существенно также и то, что развитие речевых технологий требует совершенствования методов цифровой обработки речевого сигнала, которые с успехом могут использоваться и в собственно научных целях в разных областях знания: лингвистике, фонетике, физиологии слуха и речи. Например, высококачественные синтезаторы речи позволяют создавать речеподобные, близкие к естественным сигналы с точно задаваемыми и контролируемыми параметрами. Эта особенность синтезированной речи делает ее удобной и даже необходимой для экспериментального изучения восприятия речи человеком.

При разработке прикладных систем, работающих с устной речью, возникают сложные и разноплановые проблемы, которые человек легко преодолевает в реальном языковом общении. Всё дело в том, что слуховое восприятие речи человеком является направленным, то есть навыки человека предоставляют возможность легко адаптироваться к любому акустическому фону и выделять из того акустического хаоса, который мы можем увидеть при анализе звукового сигнала техническими средствами, полезную информацию в виде языковых знаков.

Обучить такому машину оказалось исключительно сложной задачей, решаемой в настоящее время, притом, достаточно успешно, с одной стороны, за счёт большого количества накопленных знаний, с другой - за счёт введение некоторых ограничений на возможности системы автоматического распознавания речи: ограниченное количество дикторов, либо ограниченная тематика.

Задача синтеза речи оказалась несколько проще, но при этом оказалось необходимым учитывать, что тот акустический хаос, который можно увидеть при анализе звукового сигнала, не является случайным, он имеет свою внутреннюю организацию, которая обеспечивает разборчивость речи, и нарушение этих законов приводит к снижению разборчивости и негативному восприятию услышанного пользователем. В настоящее время основной сложностью синтеза речи является обеспечения «естественности» звучания синтезированной речи. В решении этих проблем участвуют ученые из разных областей науки: лингвисты, физиологи, психологи, математики, инженеры, специалисты в области компьютерной науки.

Речеведение в криминалистике

Одним их краеугольных вопросов прикладного речеведения является идентификация говорящего по устной речи. Идентификация говорящего -- это процесс определения на основе характеристик речевого сигнала и речевого потока в целом, принадлежит ли данное высказывание конкретному говорящему при условии выбора из п-стимулов, принадлежащих п-лицам. Известно, что голоса и речь различных людей обычно отличаются друг от друга. Кроме того, помимо лингвистического сообщения голос и речь несут информацию о территориальной и социальной принадлежности говорящего, его эмоциональном состоянии, его отношении к собеседнику, высказыванию и ситуации в целом, о его физиологических, психических, психологических и интеллектуальных особенностях.

До середины 80-х гг. работа лингвистов сводилась в основном к идентификации говорящего по аудиозаписи. Однако в последние годы круг задач лингвистов значительно расширился и в настоящее время он включает целый ряд направлений:

анализ лингвистического материала с целью установления авторства, «портрет» говорящего и пишущего, анализ речи на орфографическом, фонолого-фонетическом, лексическом, синтактико-семантическом уровнях в рамках высказывания и текста (дискурса);

интерпретация смысла слов, фраз, предложений и других спорных фрагментов в различного рода документах;

использование лингвистических доказательств в суде;

проведение исследования в рамках прикладной фонетики: слухового, акустического и лингвистического анализа речевого сигнала в целях идентификации говорящего по голосу и речи.

В прикладном речеведении на данном этапе его развития в России и за рубежом можно выделить следующие основные направления в области теоретических и практических исследований:

*идентификация и верификация личности говорящего экспертом и автоматической (полуавтоматической) системой;

объективность и субъективность методов идентификации;

автоматизация процесса идентификации и верификации;

процедура слухового опознания говорящего;

исследование факторов, оказывающих влияние на речевой сигнал (эмоциональное состояние, различные степени физического и психического напряжения, патология и наличие различных заболеваний и т. д.);

определение акустических характеристик речи говорящего (звуковой и просодико-интонационный аспекты);

установление подлинности (аутентичности) аудиозаписи и повышение качества звучания аудиоматериалов (фонограмм);

проблемы оценки показаний фонетистов-экспертов;

разработка методик и их практическое применение.

К числу активно разрабатываемых тем, помимо вышеперечисленных, можно отнести также различные виды произносительной маскировки, анализ спорных сегментов речи, идентификацию речевых расстройств, диалектальный анализ речи, речь в состоянии интоксикации (алкогольной, наркотической, медикаментозной), имитируемую речь, анализ неречевых сегментов, влияние курения на идентифицируемый возраст говорящего, влияние различных заболеваний на модификацию речевого сигнала, обнаружение фактов монтажа фонограммы и записи на различных устройствах звукозаписи (аналоговые способы, оцифровка и др.), возможность идентификации говорящего при переключении с одного языка на другой, влияние изменения стиля произношения на идентификацию говорящего, проблемы билингвизма и трилингвизма в криминалистической практике, организацию процесса идентификации говорящего, разработку базы фонетических данных, разработку автоматизированных и полуавтоматизированных систем идентификации личности по голосу и речи, систем шумоочистки и т. д.

Сюда же примыкают такие направления исследований, как диагностика лжи, алкогольного и наркотического опьянения, стресса по речи, а также диагностика по речи различных заболеваний, но в отличие от тех направлений, о который шла речь ранее, данные направления пока не могут похвастаться широким практическим применением в недостаточной научной разработанности и исключительной сложности объекта исследования.

Размещено на Allbest.ru

...

Подобные документы

  • Исследование проблемы взаимодействия языков в современной лингвистике. Анализ и характеристика типов контактов языков. Лексические заимствования как результат контактирования языков. Возникновение языковых контактов в истории развития французского языка.

    реферат [17,1 K], добавлен 18.07.2011

  • Определение искусственных языков и их положение в современной лингвистике. Теория лингвистической относительности в контексте изучения артлангов. Характеристика исследования грамматики новояза. Основные фонетические особенности дотракийского говора.

    дипломная работа [116,9 K], добавлен 26.07.2017

  • Комплексное изучение языковых и социокультурных процессов в их функциональном взаимодействии в ходе исторического развития общества. Исследование основных проблем взаимоотношения языка и культуры в лингвистике. Связь языка и общества, формы её выражения.

    контрольная работа [35,8 K], добавлен 11.10.2013

  • Современное состояние исследования метафор в лингвистике. Подходы к классификации текстов. Функциональный стиль массовой коммуникации и медиа-текст online формата. Специфичность метафорической репрезентации концептов в различных языковых сознаниях.

    дипломная работа [761,1 K], добавлен 25.02.2011

  • Характеристика структурно-семантических особенностей устойчивого сравнения в английском языке. Выделение устойчивых сравнений, обозначающих физические особенности человека. Исследование теоретических аспектов изучения категории оценки в лингвистике.

    курсовая работа [60,4 K], добавлен 03.05.2012

  • Понятие текста в лингвистике. Стенограмма гуманитарного мышления. Понятие дискурса в современной лингвистике. Особенности создания лингвистики текста. Анализ дискурса как метод анализа связной речи или письма. Область исследования текстоведения.

    реферат [24,6 K], добавлен 29.09.2009

  • Коммуникативный аспект функции языка. Стилистическая диагностика текста и исследование языка Интернета. Характеристика исследуемого материала веблогов и форумов. Особенности методики их анализа, результаты исследований. Изучение параметров текстов.

    курсовая работа [27,3 K], добавлен 10.11.2009

  • Частички "коммуникативного фонда" славянского и европейских языков. Тенденция к секуляризации указательных слов в современной лингвистике, в функциональном плане. Типы научной парадигмы и партикулы. Парадигматическая и непарадигматическая лингвистика.

    курсовая работа [54,6 K], добавлен 28.07.2009

  • Возникновение и этапы развития когнитивной лингвистики. Лингвистические эксперименты и существования структур сознания разных форматов знания. Когнитивная лингвистика как научное направление. Сознание как предмет изучения в когнитивной лингвистике.

    реферат [27,4 K], добавлен 10.08.2010

  • Исследование истории возникновения языков. Общая характеристика группы индоевропейских языков. Славянские языки, их схожесть и отличия от русского языка. Определение места русского языка в мире и распространение русского языка в странах бывшего СССР.

    реферат [239,6 K], добавлен 14.10.2014

  • Характеристика понятия "языковая культура". Уровень развития языка, отражающий принятые литературные нормы данного языка. Правильное и адекватное использование языковых единиц и языковых средств. Применение правил пунктуации в литературном тексте.

    контрольная работа [21,7 K], добавлен 30.03.2012

  • Биография Раска и его значение как одного из основателей сравнительно-исторического изучения индоевропейских, алтайских и эскимосских языков. Роль его трудов в лингвистике скандинавских языков. Определение языкового родства. Языковое развитие по Р. Раску.

    реферат [20,8 K], добавлен 09.05.2012

  • Сконструированные языки, их различие по специализации и назначению и определение степени сходства с естественными языками. Основные виды искусственных языков. Невозможность применения искусственного языка в жизни как главный недостаток его изучения.

    контрольная работа [12,4 K], добавлен 19.04.2011

  • Происхождение английского языка. Исторические этапы развития английского языка с точки зрения языковых и внеязыковых факторов. Лингвистические и экстралингвистические факторы, сформировавшие фонетический и грамматический строй современного языка.

    курсовая работа [70,2 K], добавлен 24.01.2011

  • Основные направления лингвистической гендерологии: история формирования, особенности отражения в зарубежной и отечественной лингвистике, стереотипы в речи. Анализ особенностей мужской/женской речи на разных языковых уровнях художественного текста.

    дипломная работа [82,5 K], добавлен 18.07.2014

  • Герменевтические принципы и категории исследования текста в лингвистике. Система отношений автор-текст-читатель. Прецедентные структуры языка как способы выражения скрытых смыслов у И.А. Бунина. Пространственно-временной континуум художественного текста.

    дипломная работа [104,7 K], добавлен 18.07.2014

  • Формирование языка народности как культурного образования, отражающего реалии жизни. Расширение коммуникативного диапазона в результате заимствований понятий из других языков. Межгосударственное взаимодействие между людьми разных языковых предпочтений.

    эссе [12,9 K], добавлен 09.04.2015

  • Центральное понятие когнитивной науки – когниция определяется как совокупность ментальных процессов, служащих целям обработки поступающей извне информации. Особенности когнитивного процесса категоризации. Понятие концепта в когнитивной лингвистике.

    реферат [59,8 K], добавлен 14.08.2010

  • Методика обучения русскому языку как иностранному. Изучение фразеологических единиц в иностранной аудитории студентов-филологов. Методические рекомендации для обучения иностранцев русским фразеологическим единицам со значением "характеристика человека".

    курсовая работа [46,4 K], добавлен 10.09.2012

  • Демократизация общества как причина появления прикладной лингвистики. Возникновение и основные принципы правовой лингвистики, темы исследований и тенденции дисциплины. Сферы соприкосновения языка и права. Переводы юридических текстов и лексикографии.

    реферат [22,2 K], добавлен 09.12.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.