Современные IT-технологии для исследования фонетических вариантов значимых единиц языковой системы
Характеристика инновационных методов изучения акустических вариантов морфологических единиц. Анализ фонетической вариативности морфологических единиц. Разработка программы для создания словаря акустических вариантов подобных единиц в виде базы данных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 14.12.2018 |
Размер файла | 285,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
УДК 81'34
Современные IT-технологии для исследования фонетических вариантов значимых единиц языковой системы
Тананайко Светлана Олеговна, к. филол. н.
Садуртинова Ксения Радиевна
Васильева Людмила Анатольевна
Санкт-Петербургский государственный университет
В статье рассматриваются инновационные методы изучения акустических вариантов морфологических единиц. Эта тема привлекает пристальное внимание лингвистов, поскольку в связи с высокой фонетической вариативностью морфологических единиц существует острая необходимость описания этой вариативности и представления данных в удобном для анализа виде. В статье описана программа для создания словаря акустических вариантов морфологических единиц в виде базы данных.
Ключевые слова и фразы: фонетическая вариативность; морфемы; уровни языковой системы; акустические варианты значимых единиц; база данных; словарь морфем; русский язык.
The authors consider the innovative methods for studying the acoustic variants of morphological units, tell that this topic draws attention of linguists, because due to the high phonetic variability of morphological units there is urgent need to describe this variability and data presentation in the form suitable for analysis; and describe the programme for creating the dictionary of the acoustic variants of morphological units in the form of a database.
Key words and phrases: phonetic variability; morphemes; language system levels; acoustic variants of notional units; database; dictionary of morphemes; the Russian language.
Статья посвящена теме, в равной степени актуальной как для практических лингвистически ориентированных разработок, так и для теоретической фонетики русского языка. Речь идет о выявлении и систематизации фонетических вариантов одних и тех же значимых единиц языковой системы. Появление таких вариантов неизбежно в звучащей речи, и это может объясняться самыми разными причинами: уровнем речевой культуры диктора, темпом речи, стилем произнесения, видом устной речи (чтение, подготовленная речь, спонтанный диалог и т.д.). На первом этапе обширного исследования данной темы, проводимого в настоящее время на кафедре фонетики СПбГУ, было принято решение сосредоточиться на фонетических вариантах морфем как единиц уровня языковой системы, непосредственно следующего за фонетическим и как самого нижнего уровня, знаковая природа единиц которого не оспаривается никем из лингвистов (что касается фонетического уровня, то признание его элементов, фонем, знаков зависит от того, какой точки зрения на знак придерживается исследователь, - унилатеральной (односторонней) или билатеральной (двусторонней))[2].
В настоящей статье описывается опыт представления акустических вариантов морфологических единиц в компьютерном виде, удобном для дальнейшей компьютерной обработки и анализа, а именно в виде словаря акустических вариантов морфологических единиц, организованного как база данных, являющаяся наиболее удобным способом представления подобного словаря. Особая роль отводится описанию реляционного подхода к организации данных. морфологический акустический база
Говоря о теоретических основаниях проводимого исследования, необходимо упомянуть о свойствах языкового знака [4] и о двойном членении [3], т.е. возможности провести членение языковой последовательности,с одной стороны, на значимые единицы - морфемы, слова, синтагмы и т.д., а с другой стороны, на формальные единицы - фонемы, слоги, не имеющие самостоятельного значения, но обеспечивающие различение значимых единиц. Именно возможность рассмотрения единиц фонетического уровня речи как единиц формальных, в определенной степени произвольных и не связанных со значением, и позволяет столь широко использовать современные IT-технологии для их хранения в звуковой форме, их анализа и изучения.
Кроме того, при обсуждении результатов взаимодействия единиц разных уровней языка надо упомянуть о достижениях структурной, в частности дескриптивной, лингвистики. Структуралисты одними из первых заговорили об уровневом и иерархическом устройстве языковой системы, и именно структуралисты, и дескриптивисты в частности, проработали понятие уровня языка и представили язык как иерархическую систему таких уровней. В отечественной фонологии были приняты и получили свое развитие многие идеи структурной лингвистики. Так, Л. В. Бондарко [6, с. 81] говорит о следующих уровнях языковой системы: фонетический (или фонологический), морфологический, синтаксический и семантический. При этом про взаимодействие единиц каждого уровня Бондарко пишет следующее: «Анализ механизмов парадигматического противопоставления единиц каждого уровня показывает, что оно реализуется единицами низшего уровня; фонемы обеспечивают противопоставленность экспонентов морфем, словоформы противопоставлены с помощью морфем и т.д. Можно сказать, что переход с уровня на уровень осуществляет преобразование единиц низшего уровня в отношение единиц высшего уровня» [Там же, с. 82]. Однако при этом важно замечание о том, что единица высшего уровня не является суммой единиц более низкого уровня: «морфема не есть сумма фонем, а слово - сумма морфем, поскольку процесс функционирования языковой системы предполагает обязательное Їрпиращение значений? на любом уровне… значение единиц более низкого уровня всегда является результатом анализа формальной структуры более высокого уровня» [Там же, с. 84].
Словарь акустических вариантов морфологических единиц создан на материале высококачественных звуковых записей, полученных при разработке корпуса CORPRES для синтеза речи на кафедре фонетики и методики преподавания иностранных языков филологического факультета СПбГУ в 2007-2009 годах. Общий объ?м материала, представляющего собой подготовленное чтение четырьмя профессиональными дикторами литературных текстов, составляет 35 000 словоупотреблений. В качестве основного морфемного словаря, послужившего основой представляемой базы данных, был использован «Словарь морфем русского языка» А. И. Кузнецовой и Т. Ф. Ефремовой [1].
Разработанный словарь морфологических единиц - это информационная система, основной задачей которой является хранение большого объема структурированных данных, таких как морфологические единицы и соответствующие им акустические и идеальные транскрипции. В словаре хранятся орфографические записи морфологических единиц, встречающихся в обработанном корпусе, с указанием класса морфологической единицы (приставка, корень, суффикс и т.д.). Кроме того, в словаре сохраняются взаимосвязи между морфологическими единицами и соответствующими акустическими и идеальными транскрипциями.
Основные требования, которые предъявлялись к словарю в процессе его создания и которым он удовлетворяет, таковы:
1) удобство доступа к данным.
Словарь разрабатывался для наблюдения вариативности морфологических единиц. Поэтому информационная система спроектирована таким образом, чтобы существовала возможность простого и быстрого доступа к хранимой в ней информации. В частности, существует возможность по орфографической записи морфологической единицы найти в словаре соответствующие ей акустические и идеальные транскрипции; 2) удобство добавления и корректировки данных.
Имеется возможность добавления и изменения данных в словаре; 3) портативность.
Система может без особых трудностей переноситься между различными физическими устройствами; 4) надежность.
Словарь спроектирован с высокой степенью надежности с точки зрения защиты от потери информации; 5) отсутствие избыточности хранимой информации.
Избыточность (дублирование данных) потенциально может привести к логически ошибочным результатам поиска или изменения данных словаря.
В качестве предпочтительного варианта реализации словаря была выбрана система баз данных.
Словарь морфологических единиц как система баз данных требует дополнительных программных продуктов для реализации уровня программного обеспечения, а именно для реализации системы управления базами данных (СУБД). База данных словаря морфологических единиц предполагает наличие нескольких таблиц, часть из которых содержит информацию об объектах морфологических единиц, акустических и идеальных транскрипций, а другая часть - «связующие таблицы», содержат информацию о взаимосвязях между этими объектами.
Преимуществами такого подхода к реализации словаря морфологических единиц являются отсутствие избыточных данных, скорость поиска в словаре, простота редактирования уже внесенной в словарь информации, поддержка на уровне СУБД средств резервного копирования. Такой способ реализации при правильно спроектированной базе данных позволяет избежать дублирования информации. Каждому объекту, будь то морфологическая единица определенного типа, акустическая или идеальная транскрипция, сопоставляется одна запись в соответствующей таблице. Взаимосвязи между объектами реализуются с помощью «связующих» таблиц. Скорость поиска обеспечивается за счет использования индексов, поддерживаемых всеми современными СУБД. К преимуществам способа реализации можно отнести также защиту от дублирования информации на уровне СУБД. Большинство современных СУБД позволяет использовать индексы для контроля уникальности записи в пределах таблицы базы данных.
Высокая надежность словаря морфологических единиц при таком подходе к реализации достигается за счет использования систем резервного копирования, которые поддерживаются современными СУБД. Такие системы позволяют минимизировать риск необратимой потери данных. Основными недостатками такого способа реализации являются необходимость установки дополнительных программных продуктов для использования словаря и, как следствие, сложность переноса программы между различными устройствами.
В качестве СУБД выбрана Microsoft SQL Server 2008 sp1 express. Причин такого выбора несколько. Во-первых, Microsoft SQL Server express - это СУБД, которая устанавливается по умолчанию вместе со свободно распространяемым программным продуктом Microsoft Visual C# 2008. Во-вторых, СУБД поддерживает технологию ADO.NET Entity Framework. ADO.NET Entity Framework- объектно-ориентированная технология доступа к данным для .NET от Microsoft. Эта технология в значительной мере упрощает взаимодействие с базой данных на этапе создания словаря, позволяет использовать средства LINQ в процессе работы с базой. В-третьих, СУБД поддерживает индексы и все необходимые операции над ними, а также связи между таблицами и обеспечение. Архитектура базы данных подробно описана в нашей работе [5].
Интерфейс рабочей версии позволяет выводить наборы идеальных и акустических транскрипций морфологической единицы. В результате программа предлагает пользователю соответствующие данные. Например, на Рисунках 1 и 2 приведен вывод данных для корня -ход- и приставки пре-.
Таким образом, благодаря созданному словарю акустическая вариативность морфологических единиц представлена в компьютерном виде, удобном для дальнейшей компьютерной обработки, а благодаря разработанному интерфейсу данные об акустической вариативности морфологических единиц удобны для анализа и для дальнейшего использования в прикладных и теоретических целях.
Размещено на http://www.allbest.ru/
Рис. 1. Данные для корня -ход- Рис. 2. Данные для приставки пре-
Список литературы
1. Кузнецова А. И., Ефремова Т. Ф. Словарь морфем русского языка. М.: Русский язык, 1986. 1136 c.
2. Кузнецова Н. Еще раз о понятии фонемы [Электронный ресурс]. URL: http://www.dialog-21.ru/Archive/2005/ KuznetsovaN/KuznetsovaN.pdf (дата обращения: 02.07.2013).
3. Мартине А. Основы общей лингвистики. М.: Едиториал УРСС, 2004. 224 с.
4. Соссюр Ф. де. Курс общей лингвистики. М.: Едиториал УРСС, 2004. 256 с.
5. Тананайко С. О., Садуртинова К. Р. Фонетические варианты морфологических единиц: опыт создания словаря // Анализ разговорной русской речи (АР3-2012). СПб.: ГУАП, 2012. С. 40-45.
6. Уровни языка в речевой деятельности: к проблеме лингвистического обеспечения автоматического распознавания речи / отв. ред. Л. В. Бондарко. Л.: Изд-во ЛГУ, 1986. 260 с.
Размещено на Allbest.ru
...Подобные документы
История появления и развития единиц измерения. Метрические и неметрические единицы измерения, использование в мировой практике. Изучение среды программирования Borland Delphi. Разработка программы-переводчика единиц измерения веса и ее интерфейса.
курсовая работа [635,7 K], добавлен 08.09.2021Важный частный случай недетерминированного конечного автомата. Проверка нечетности числа единиц в произвольной цепочке, состоящей из нулей и единиц. Составление формальной грамматики, блок-схемы и программы, моделирующей работу конечного автомата.
курсовая работа [210,8 K], добавлен 05.12.2013Построение логической и физической структуры базы данных. Сценарии вариантов использования: вход и выход из системы, обновление меню и списка официантов, регистрация и проверка выполнения заказа. Расчёт стоимости и эффективность внедрения программы.
курсовая работа [1,3 M], добавлен 21.09.2015Выявление действующих лиц, вариантов и диаграммы использования системы, принципы ее построения. Реализация вариантов использования в виде текста, диаграмм деятельности и последовательности. Выявление базовых классов и моделирование разработанной базы.
курсовая работа [523,8 K], добавлен 15.03.2015Исследование процессов, методов и средств технологии хранения информации. Изучение единиц измерения памяти и классификации запоминающих устройств. Характеристика основных способов кодирования данных на компьютере на сегодняшний день, таблиц кодировок.
курсовая работа [86,9 K], добавлен 07.12.2011Аналитический обзор целевой аудитории. Создание и заполнение базы данных с помощью Microsoft Access. Разработка интерфейса и функций рабочей области. Построение форм. Функциональные требования к приложению. Его тестирование по методике чёрного ящика.
дипломная работа [1,6 M], добавлен 09.11.2016Описание технологии asp.net. Страницы веб-приложения, тестирование системы. Описание функциональной, динамической модели системы. Диаграммы вариантов использования, последовательности, база данных приложения. Реализация программы, интерфейс, тестирование.
курсовая работа [3,2 M], добавлен 30.01.2013Специфика системы управления телевизором. Особенности модели вариантов использования. Анализ основных вариантов использования телевизора: просмотр, переключение каналов, изменение громкости и настроек. Проектирование и реализация системы, генерация кода.
курсовая работа [226,4 K], добавлен 10.06.2011Проектирование информационной системы, обеспечивающей деятельность движения транспорта. Построение диаграммы последовательности, классов, компонент и развертывания. Создание логической модели базы данных. Реализация вариантов использования в виде текста.
курсовая работа [1,4 M], добавлен 22.05.2015Анализ источников сигналов и видов акустических каналов защищаемой информации. Распространение и поглощение звуковых волн. Технические каналы утечки акустических данных. Модель угроз для информации через вибро- и электроакустический, оптический каналы.
дипломная работа [1,3 M], добавлен 05.07.2012Изучение автоматизированных технологий 3D-моделирования деталей и сборочных единиц, создания на их основе электронных чертежей. Выполнение геометрической модели верхней и нижней плиты, колонки и втулки. Анализ осуществления сборки деталей блоков штампа.
практическая работа [1,0 M], добавлен 22.02.2012Анализ предметной области. Проектирование и разработка базы данных и интерфейса в виде набора Web-страниц для отображения, создания, удаления и редактирования записей базы данных. Аппаратное и программное обеспечение системы. Алгоритм работы программы.
курсовая работа [3,0 M], добавлен 12.01.2016Визуальное моделирование в UML. Построение модели в форме диаграммы вариантов использования (use case diagram), которая описывает функциональное назначение системы. Документация для взаимодействия разработчиков системы с ее заказчиками и пользователями.
лабораторная работа [672,2 K], добавлен 10.03.2014Обзор систем автоматизации библиотек. Интерфейс системы "Ирбис". Основные характеристики системы "Библиотека-3". Диаграмма вариантов использования базы данных. Модель сущность-связь. Типы данных таблицы "книга", "читатели", "связь", "автор", "склад".
курсовая работа [3,3 M], добавлен 15.04.2018Моделирование предметной области "Выдача банком кредита". Диаграммы вариантов использования и выявление акторов. Структуризация вариантов использования. Операции документооборота в корпоративных системах обработки информации. Оценка кредитного плана.
курсовая работа [999,1 K], добавлен 27.11.2013Понятие электронного учебника, его сущность и особенности, назначение и использование, сфера применения. Модель структурирования системы и обоснование ее выбора. Проектирование системы управления и ее структурных единиц. Декомпозиция системы на модули.
курсовая работа [32,5 K], добавлен 15.02.2009Характеристика организационных единиц предметной области, процессов циркуляции и переработки информации, обмена информации в организации. Основные автоматизированные рабочие места и их функциональное назначение. Локальная компьютерная сеть предприятия.
курсовая работа [1,1 M], добавлен 20.05.2014Понятие электронной информационной системы, ее сущность и особенности, разновидности и характеристика. Взаимосвязь организованности совокупности элементов информационного пространства. Определение состава единиц в документе, описание единицы информации.
контрольная работа [35,3 K], добавлен 25.02.2009Создание автоматизированной системы диагностики конструктивных дефектов на основе акустических сигналов. Структурная схема автоматизированной системы. Методика анализа звукового сигнала. Алгоритм сравнения полученных данных с помощью модуля Diag.
курсовая работа [658,5 K], добавлен 14.07.2012Разработка словаря, содержащего термины по патентоведению, в виде базы данных. Систематизация данных путем разделения текста на отдельные файлы по буквам алфавита. Создание файла "Содержание" с гиперссылками для обеспечения быстрого доступа к информации.
презентация [278,1 K], добавлен 16.10.2013