Проектирование системы сравнения стилистических характеристик текстов

Разработка автоматизированной системы по сравнению стилистических характеристик текстов посредством сравнения стиля речи, маркеров стиля и систем идентификации текста. Формирование общей модели сравнения стилистических характеристик текстовых объектов.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 01.12.2019
Размер файла 3,5 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

4

Размещено на http://www.allbest.ru/

1

Пермский филиал федерального государственного автономного образовательного учреждения высшего образования

«Национальный исследовательский университет

«Высшая школа экономики»

Факультет экономики, менеджмента и бизнес-информатики

Выпускная квалификационная работа

по направлению подготовки 38.04.05 «Бизнес-информатика»

образовательная программа

«Информационная аналитика в управлении предприятием»

ПРОЕКТИРОВАНИЕ СИСТЕМЫ СРАВНЕНИЯ СТИЛИСТИЧЕСКИХ ХАРАКТЕРИСТИК ТЕКСТОВ

Горбунова Мария Андреевна

Руководитель

к.ф.-м.н., доцент, доцент кафедры

информационных технологий в бизнесе НИУ-ВШЭ Пермь

Л.Н. Лядова

Пермь, 2019 год

Аннотация

Представленная работа является описанием процесса проектирования системы сравнения стилистических характеристик текстов. Система предназначена для выявления соответствия стиля одного объекта сравнения другому. Объектами сравнения могут выступать как отдельно взятые тексты, так и массивы текстов - корпуса. Данная система может быть применима для академических исследований языка, в сфере образования, для контроля качества обучения, а также для коммерческих разработок, в качестве интегрируемой системы.

Работа включает «Введение», три главы, «Заключение», «Библиографический список» и приложения. Во «Введении» обоснована актуальность задачи проектирования системы стилистических характеристик. Первая глава является обзором методов, инструментов и примеров решения задачи идентификации стиля. Задача автоматизации, условия и ограничения системы описаны во второй главе. Так же в этой части проанализированы варианты использования системы, на основе которых сформированы основные функциональные требования к системе. Третья глава работы представляет собой описание нефункциональных требований к системе, а именно формирование модели сравнения и выбор инструментов реализации. Также в ходе третьей главы были подготовлены и описаны макеты экранных форм системы. Основными результатами работы являются сформированные требования к функциональным возможностям системы, а также требования к инструментам реализации. Работа состоит из 64 страниц основного текста, включает в себя 16 рисунков,2 таблицы и 2 приложения. Библиографический список содержит 74 наименования.

Оглавление

Аннотация

Введение

Глава 1. Задача сравнения стилистических характеристик текстов

1.1 Описание автоматизируемого бизнес-процесса

1.2 Анализ задачи идентификации стиля текста

1.2.1 Стиль речи и его классификация

1.2.2 Стилеметрия. Задачи идентификации стиля текста

1.2.3 Методы представления текстовой информации

1.2.4 Маркеры стиля и их классификация

1.2.5 Анализ моделей сравнения текста

1.3 Обзор систем идентификации стиля текста

1.4 Формулировка задачи, условия и ограничения

1.5 Выводы по первой главе

Глава 2. Формирование функциональных требований к системе сравнения стилистических характеристик

2.1 Анализ вариантов использования системы сравнения стилистических характеристик

2.2 Формирование требований к системе сравнения стилистических характеристик текстов

2.3 Описание бизнес-процесса сравнения стилистических характеристик TO-BE

2.4 Формирование модульной архитектуры системы

2.5 Описание требований к внешним взаимодействиям

2.6 Выводы по второй главе

Глава 3. Описание нефункциональных требований к системе сравнения стилистических характеристик

3.1 Формирование модели сравнения стилистических характеристик объектов

3.2 Разработка серверной архитектуры системы

3.3 Проектирование базы данных истории операций сравнения стилистических характеристик

3.4 Выбор средств реализации системы

3.5 Проектирование пользовательских интерфейсов

3.6 Выводы по третьей главе

Заключение

Библиографический список

Приложения

Приложение А. Схемы бизнес-процессов

Приложение Б. Сравнительные характеристики

идентификация маркер стиль речь текст

Введение

Текстовая информация в настоящее время поддается статистической обработке. Метриками для подобной статистики могут служить различные параметры текста, например, стилистические характеристики. Задача по обработке текста может представлять собой идентификацию стиля текста или сравнение стилистических характеристик нескольких текстов.Кроме того, объектами сравнения могут быть как тексты, так и массивы текстов - корпусы.

Лексический состав и терминология являются основными признаками, на которых основываются методы анализа стиля текста реализованных на данный момент систем рецензирования, но на практике стиль языка выражается в куда большем количестве характеристик. Поиск и идентификация признаков стиля -- это одни из задач корпусной лингвистики.

Корпусная лингвистика -- это раздел науки о языке, изучающий массивы текстов, объединенных по какому-либо признаку, такому как время написания, автор, тематика и т.д. Использование текстовых корпусов в исследованиях позволяет специалистам отслеживать общую динамику языка, производить машинный перевод, проводить статистические исследования и компьютерное обучение языку.

Ручной анализ и обработка текста являются весьма трудозатратными процессами, поэтому в исследованиях используются программные средства, которых на текущий момент реализовано большое количество. Наиболее популярными из них являются такие инструменты для обработки корпусов текстов, например, AntConc[1], GateDeveloper[2], SketchEngine[3] и CQPweb[4]. Такие системы предоставляют пользователю возможность проводить ряд операций над корпусами текстов, но имеют следующие недостатки:

1. Являются платными, либо бесплатные функциональные возможности ограничены, что в условиях академических исследований является значительным ограничением.

2. Требуют большого количества памяти, так как многие из них являются desktop-приложениями и для хранения корпусов текстов используют файловую систему компьютера.

3. Представленные системы не предоставляют функциональных возможностей по визуализации полученных результатов.

4. Сбор статистики в большинстве подобных систем не реализован, но даже если подобные опции присутствуют, то без возможности настройки на нужды пользователей.

Перечисленные выше недостатки рассмотренных систем, априори исключают возможность сравнения нескольких текстов на основе их численных характеристик. Таким образом, можно сделать вывод, что такая функциональная возможность как сравнение стилистических характеристик статистически обработанных текстов является не реализованной на данный момент.

Объектом исследования является процесс определения степени соответствия стиля одного текста или корпуса текстов другому.

Программные средства для сравнения стилистических характеристик текстов являются предметом исследования.

Целью данной работы является проектирование системы сравнения стилистических характеристик текстов. Для достижения цели необходимо решить следующие задачи:

1. Провести анализ предметной области:

? Сформулировать и описать задачу автоматизации, выявить условия и ограничения для проектируемой системы.

? Провести анализ задачи идентификации текста и примеры ее решения.

? Рассмотреть примеры реализованных систем идентификации стиля текста, выявить их достоинства и недостатки.

2. Провести анализ вариантов использования системы и сформулировать функциональные требования:

? Описать варианты использования системы.

? Сформировать функциональные требования к системе сравнения стилистических характеристик текстов.

? Разработать схему бизнес-процесса сравнения численных характеристик текстов с применением разрабатываемой системы (TO-BE).

? Определить функциональные модули системы сравнения стилистических характеристик и способы взаимодействия между ними.

? Описать требования, предъявляемые к внешним взаимодействиям системы.

3. Сформулировать нефункциональные требования к системе, а именно сформировать архитектуру и выбрать средства реализации

? Разработать модель сравнения текстов, на основе выбранных инструментов.

? Сформировать серверную архитектуру системы и требования к каждому из узлов.

? Спроектировать базу данных для хранения сведений о проведенных операциях по сравнению стилистических характеристик текстов.

? Проанализировать и произвести выбор инструментария для реализации проектируемой системы.

? Произвести проектирование интерфейса системы сравнения стилистических характеристик и описать поведение элементов экранных форм.

Для выполнения задачи 1 используются методы анализа, сравнения, формализации, а также методы статистического анализа. Задача 2 и 3 предполагают применение методов анализа и моделирования.

Результатом данной работы должен быть проект системы сравнения стилистических характеристик, на основе которого может производиться разработка системы. Первая глава является подготовительным этапом для формирования функциональных и не функциональных требований к системе во второй и третьей главах.

Глава 1. Задача сравнения стилистических характеристик текстов

Проведение анализа предметной области в интересах последующего проектирования информационной системы является задачей, формирующей единый взгляд на автоматизируемые процессы. В данном контексте, предметная область рассматривается как совокупность знаний об объектах и процессах, подлежащих проектированию. Предметной областью для проектируемой системы является компьютерная лингвистика, компьютерная обработка естественного языка. В процессе исследования объекта автоматизации должны быть выявлены требования, условия и ограничения к системе и ее компонентам.

Формирование требований к системе предполагает сбор исчерпывающей информации об объекте автоматизации. Первым шагом необходимо рассмотреть автоматизируемый бизнес-процесс сбора и сравнения численных характеристик текстовв том состоянии, в котором он происходит в текущий момент и выделить его недостатки.

1.1 Описание автоматизируемого бизнес-процесса

На данный момент сравнение стилистических характеристик текстов выполняется вручную. Такой метод, несомненно, позволяет получить экспертное мнение относительно соответствия текстов, но является весьма трудозатратным. На рис. А.1., представлен процесс сравнения стилистических характеристик текстов.

Процесс инициируется при выявлении текстов или корпусов текстов, стилистическую близость которых необходимо определить. Основой выявления соответствия стиля одного текста или корпуса текстов другому является статистический набор данных стилистических характеристик. Поэтому первым шагом эксперт вручную производит сбор статистики использования тех или иных стилистических показателей текстов. Данные переносятся в табличный редактор для удобства дальнейшего анализа. Эксперт просматривает статистические данные в разрезе каждой характеристики и делает вывод похожи они или нет. После того как все характеристики наборов оценены на соответствие - составляется вывод о близости двух наборов данных.Можно выделить несколько отрицательных характеристик такого подхода:

1. Высокие трудозатраты эксперта. Каждый шаг данного процесса занимает достаточно много времени, даже на небольших наборах данных. Так как при исследованиях лингвисты, как правило, используют крупные выборки текстов и большое количество параметров для оценки, использование такого подхода может отнять значительное количество времени.

2. Неточность оценки. Многие исследователи используют возможности табличных редакторов при оценке близости текстов, такие как формулы и применение вероятностно-статистических методов. Но оценка все равно остается субъективной так как нет границ и критериев для понимания степени схожести наборов данных в разрезе рассматриваемых характеристик.

3. Время выполнения процесса невозможно точно определить, так как существует неопределенность по продолжительности каждого подпроцесса. В рамках личных исследований,время, потраченное на сравнение наборов, может и не играть значительной роли, но если процесс сравнения проводится для академических или коммерческих исследований, то время выполнения работы должно быть заранее определено.

4. Монотонность процесса. Однообразность задачи весьма повышает вероятность ошибок исследователя при ее выполнении.

Учитывая вышеупомянутые недостатки и тот факт, что функциональная возможность сравнения стилистических характеристик текстов еще не реализована в существующих системах рецензирования, можно сделать вывод о необходимости автоматизации данного процесса. Для лучшего понимания объекта автоматизации, а именно процесса сравнения стилистических характеристик текстов, необходимо провести более тщательный анализ предметной области.

1.2 Анализ задачи идентификации стиля текста

Задача сравнения стилистических характеристик текстов направлена на определение степени близости стилей текстов. Компьютерная лингвистика, как направление прикладной лингвистики, подразумевает использование компьютерных программ для обработки данных. Одной из задач, решение которой в настоящий момент невозможно представить без использования информационных технологий, является идентификация стиля текста. Данная задача требует изучения больших текстовых массивов - корпусов - на предмет принадлежности к тому или иному стилю.

1.2.1 Стиль речи и его классификация

Стилистика, наука, изучающая языковые средства и их лексические значения, а также способы их применения в различных сферах и ситуациях. Выделяется два основных направления - функциональное и лексическое. Значения слов и их сочетаемость изучает лексическая стилистика. Функциональная стилистика рассматривает функционирование языка в различных сферах общения, а также функциональные стили языка, их признаки и особенности употребления[5].

Само понятие функционального стиля подразумевает подсистему литературного языка, обозначенную особыми маркированными языковыми средствами и использующуюся в определенной сфере[6]. Характерные черты данного стиля определяются особенностями общения в конкретной сфере. Функциональный стиль также имеет классификацию, которая основывается на следующих факторах [7]:

- экстралингвистические факторы, определяют состав языковых средств в зависимости от сферы, выделяют речевые высказывания и тематику;

- объективные стилеобразующие факторы, определяют подстили или разновидности стиля (например, по форме речи - устная или письменная, по способу коммуникации - личная или массовая);

- ситуативно-общественные факторы (например, тон или вид речи).

Традиционно выделяют 5 основных видов функционального стиля, считается что они выражают наиболее значимые и популярные сферы общения: академический, публицистический, официально-деловой, разговорный и художественный стили[5]. Несмотря на то, что стили разграничены, нередка ситуация, когда элементы одного стиля могут свободно использоваться в другом. Именно поэтому идентификация стиля является одной из базовых задач лингвистики, которой занимается такой раздел науки о языке как стилеметрия.

1.2.2 Стилеметрия. Задачи идентификации стиля текста

Раздел лингвистики стилеметрия (в некоторых исследования так же используется термин стилометрия[8]) можно определить, как дисциплину, занимающуюся измерением стилевых характеристик текста с целью его систематизации и упорядочения. Так же может быть выявлено и несколько более конкретных задач, таких как типология текста, его датировка, диагностика и т.д. Термин стилеметрия был введен в конце 19 века немецким филологом В. Диттенбергером, в ходе исследований текстов Платона на предмет авторства и датировки [9]. В России данный раздел лингвистики впервые был использован для определения плагиата произведений [10].

Объектом исследований стилеметрии является текст, в конкретном авторстве, времени и ситуации написания. Предметом - элементы стиля, которые представляются как характеристики объекта. Рассмотрение конкретных примеров исследований в области стилеметрии даст понимание методов и инструментов решения подобных задач.

Как было сказано ранее, идентификация стиля текста это одна из базовых задач лингвистики. Рассмотрим задачи, которые могут быть решены с помощью определения стиля текста. Стоит отметить, что в данном контексте под идентификацией стиля понимается не только определение принадлежности текста к тому или иному функциональному стилю, но и принадлежности к стилю, заданному определенными условиями и характеристиками.

Лингвистическая экспертиза - это исследование продуктов речевой деятельности, для получения ответов на поставленные вопросы и извлечения необходимых знаний [8]. Данный вид исследования широко применяется в судопроизводстве и юриспруденции. Например, в таких направлениях как дела об унижении чести, достоинства и деловой репутации; дела о клевете; дела об экстремизме и т.д. Среди задач лингвистической экспертизы существует направление автороведческой экспертизы текста, исследования текста на предмет авторства или получения каких-либо сведений об авторе или условиях создания продукта речевой деятельности [11]. Наиболее распространенный пример применения данного метода - выявление плагиата.

Задача идентификации авторства текста - это задача установления авторства неизвестного текста, посредством сравнения особенностей исследуемого текста с другими произведениями, авторство которых подтверждено[12]. Многие авторы обращали внимание на данное направление, например, А.С. Романов в своей работе описывает пример определения авторства с помощью векторного представления текста [13]. Другой автор, А.С. Суркова, применила понятие информационного портрета для идентификации стиля автора [14]. Такой портрет строился для каждого текста автора, после чего вычислялся общий, для каждой из заранее определенных характеристик. Еще один автор, Т.В. Батура в своей работе [15], предлагает подход к моделированию и идентификации авторского стиля текста через метод векторного представления. В ходе исследования автор рассматривает системы идентификации стиля текста, такие как «Лингвоанализатор»[16], «Атрибутор»[17], «СМАЛТ»[18], «Антиплагиат»[19] и «Авторовед»[20]. И на их основе реализует алгоритм проверки авторства текста.

Иногда встречаются исследования, в которых производится не только идентификации стиля текста по автору, но и автора по стилю представленного текста. Так например А.А. Воробьева и А.С. Гвоздев в своей работе предлагают метод идентификации анонимных пользователей интернет-порталов по их техническим и лингвистическим характеристикам, на основе коротких электронных сообщений[21].

Часто определение стиля необходимо при выполнении информационного поиска. В статье [22] авторы предлагают систему для поиска необходимой медицинской литературы по запросам пользователей, на основе их медицинских заключений и документов. Таким образом, снижается риск того, что пациенты найдут неверный источник и воспользуются указаниями, описанными там. Список документов, удовлетворяющих запросу, строится на основе статистических характеристик терм входящих в запрос, также учитывается синтаксическая составляющая.

Методы идентификации стиля широко используются в археологии, при установлении возраста документа и места его создания. В статье [12] Т.А. Литвинова приводит пример того, как с помощью стилистического анализа документа можно скорректировать информационный портрет автора и самого документа.

В вышеупомянутых исследованиях часто фигурируют такие понятия, как метод представления текстовой информации и модели сравнения текстов. В соответствии с целями и задачами, стоящими в том или ином исследовании, выбирается определенный способ представления текста для обработки и модель в соответствии с которой характеристики текстов будут сравниваться.

1.2.3 Методы представления текстовой информации

Представление текста в удобном для дальнейшего анализа и обработки виде является одним из первоначальных этапов решения задачи идентификации стиля текста. Чаще всего авторы используют для этого математические модели текста на естественном языке. Методы математической логики позволяют лингвистам формализовать те или иные языковые явления, а также выявить незаметные на первый взгляд закономерности, которые невозможно выявить при ручной обработке текста.

Выбор метода представления текстовой информации является важным шагом в формировании модели, так как задает дальнейший выбор метода сравнения характеристик текста. Выбранный способ представления численных характеристик текста применяется при формировании ответа модуля сбора статистики. Для того чтобы выбрать подходящий для рассматриваемой задачи метод представления текстовой информации, необходимо сравнить их. Рассмотрим критерии сравнения необходимые для принятия решения:

1. Возможность сравнения. Целью разрабатываемой модели является возможность сравнить несколько текстов или корпусов текстов, представленных с помощью рассматриваемой модели.

2. Вес параметров. Некоторые модели предоставляют возможность учитывать вес параметра при составлении модели, это может быть важно при определении значимости того или иного стилистического показателя.

3. Размер текста. Необходимо понимать учитывает ли модель при формировании размер рассматриваемого текста. Потому как в последующем, необходимо будет сравнивать тексты разных объемов.

4. Форма записи модели. Обозначение модели необходимо для понимания, возможно ли применить ее к имеющимся данным или стоит их корректировать, и если придется корректировать входные данные, то насколько трудозатратно это будет. Стоит отметить, что входными данными с рассматриваемой задаче является набор стилистических характеристик текста или корпуса текстов, который выражен показателями частотности употребления маркеров.

5. Применение на практике (задачи). Для каждой модели имеется определенный спектр задач, которые можно решить. Необходимо указать для каких типов задач данная модель подходит лучше всего.

Описанные ниже модели представления текстовой информации рассматриваются в контексте перечисленных критериев.

Модель «Мешок слов» (или «Bagofwords»)

Самой простой моделью текста на естественном языке является модель «Мешок слов» (или «Bagofwords») - представление текста как суммарный набор составляющих его слов, без каких-либо связей между ними. Единицей такого представления является слово с одним атрибутом - частотой встречаемости этого слова [23]. В данном случае под частотой встречаемости понимается количество употреблений данного слова или конструкции в конкретном тексте. Таким образом, каждый корпус можно представить матрицей, где строка -- это конкретный текст, а столбец -- это определенное слово. Ячейка на пересечении столбца и строки является показателем количества употреблений данного слова в указанном тексте. Стоит отметить, что в данной модели игнорируется порядок слов в документе, а также морфологические формы слов.

Частотная модель текста

Для каждого слова из «мешка слов» можно указать некоторый вес, таким образом, чтобы модель текста представляла собой набор вида «слово - вес». Вес единицы можно определить следующими способами [7]:

- Бинарный метод - каждому слову в наборе присваивается вес равный 0 или 1. Применяется чаще всего для логического информационного поиска и автоматического определения рубрики текста.

- Количество вхождений - каждому слову соответствует число определяющее количество употреблений слова в тексте [24]. Для сравнения текстов данный тип веса не подходит, так как показатели будут сильно отличаться для текстов с разными объемами.

- Частота вхождения слова в документе - показатель вычисляется как отношение количества вхождений слова в текст к общему количеству слов в тексте. Данный тип веса приемлем для информационного поиска, но стоит учитывать, что показатели будут отличаться для текстов разных объемов также, как и для предыдущего типа.

- Логарифм числа вхождений - вес определяется по формуле:

(1)

- Обратная частота - показатель является инверсией числа вхождений.

Векторная модель

Векторная модель - это алгебраическая модель для представления текстовых документов в виде векторов в пространстве признаков, общих для всего набора текстов (корпуса) [8]. С помощью векторной модели решаются такие задачи как информационный поиск, классификация и кластеризация документов и т.д.

В рамках векторной модели, текст рассматривается как набор неупорядоченных единиц - терм, упорядочивание которых и образует вектор. Размер такого вектора определяется количеством терм, выделенных при исследовании или если они не выделены заранее, то количеством различных маркеров во всем корпусе текстов [25]. Формально, каждый документ можно выразить следующим образом:

(2)

где vj - вектор j-того документа корпуса,

cij - вес i-того терма в j-том документе,

n - количество различных терм во всем корпусе документов

Для данной модели применяют три метода взвешивания термов:

1. Булевский вес. Как и в случае частотной модели текста, показатель равен 1 если терм присутствует в тексте и 0 если употреблений нет.

2. TF (Term Frequency - частотатерма). Вес терма равен функции от количества вхождений в тексте.

3. TF-IDF (Term Frequency - Inverse Document Frequency, частотатерма - обратнаячастотатерма). В данном случае вес терма вычисляется по следующей формуле:

(3)

где TF - частота терма в документе,

IDF - обратная частота терма,

tf- частота терма в документе,

idf - число документов коллекции, в которых встречается терм

N - общее количество документов коллекции

Такой способ представления текстовой информации позволяет представлять текстовый корпус как векторное пространство, а каждый текст как точку. Таким образом можно решить проблему сопоставления текстов, рассчитав расстояние между точками. В случае информационного поиска, сам запрос также представляется как вектор, или псевдодокумент[26]. Пользователю выдаются документы в порядке убывания близости к точке псевдодокумента в векторном пространстве.

Объектная модель (DOM)

Объектная модель документа (DocumentObjectModel) [27] - это программный интерфейс, позволяющий представить документ в формате HTML или XML в виде дерева. Каждый узел представляет собой элемент, атрибут, слово, предложение или любой другой объект. Подобная структура предполагает родительски-дочерние отношения между узлами. Как было сказано выше, данная модель подходит для описания документов определенных форматов. То есть перед тем, как проводить анализ текста с помощью DOM, необходимо подвергнуть текст (или корпус текстов) предварительной обработке, на предмет выделения свойств и характеристик.

Модель DOM является удобной для дальнейшей автоматической обработки, так как основы модели формируются стандартами всемирной паутины - W3CDOM и WHATWGDOM, которые реализованы в большинстве современных браузеров.

Графовая модель

В соответствии с графовой моделью, каждый терм текста представляется как вершина графа, а ребра - связи между термами [28]. Такая модель позволяет эффективно отобразить связи между термами и общую информационную структуру текста. Под информационной структурой текста в данном случае понимается совокупность всех слов и словосочетаний, а также связи между ними. Переход от обычного представления текста к графовой модели может быть представлен следующими шагами [28]:

1. Текст представляется в виде информационного потока, который может быть выражен как через набор информационных элементов (слов), так и через набор связей. Поток слов может быть представлен множеством:

2.

(4)

где i - информационный элемент, соответствующий слову в тексте

Информационный поток как набор связей:

(5)

где ci - связь двух слов

n - общее количество связей в тексте

3. Информационный поток формируется в структуру. Предположим, что слова в тексте повторяются, как чаще всего бывает в текстах на естественном языке. Таким образом, информационный поток будет проходить через одни и те же вершины несколько раз, тем самым образуя структуру - граф.

Для расширения информации о графе, многие авторы добавляют сведения о количествах прохождений информационного потока через одну и ту же вершину - говоря проще, появляются сведения о частоте употребления информационного элемента в рамках конкретного графа[29].

Все рассмотренные методы представления текста подразумевают определенные параметры, которые являются характеристиками текста, отображающими стиль. Эти параметры, так называемые маркеры стиля, являются своего рода переменными, на основе которых собираются статистические данные для дальнейших исследований.

Сравнительная характеристика методов представления текстовой информации

На основании критериев, указанных выше,составлена сравнительная таблица (см. табл. Б.1.). «-» обозначает что критерий не учитывается при формировании модели, «+» - соответственно, учитывается.

По результатам сравнения можно сделать вывод, что наиболее подходящей моделью для рассматриваемой задачи является векторная модель. Во-первых, существует большое количество методов для сравнения векторов. Во-вторых, с помощью векторной модели, а именно модель с использованием метода взвешивания TF-IDF, можно построить модель текста с учетом его размеров, что является очень важным аспектом при сравнении средней характеристики по большому корпусу текстов. В-третьих, существует достаточно большое количество примеров решения задач в основе которых лежит применение векторной модели для сравнения одного и нескольких текстов. В-четвертых, векторное представление текста удобно для задачи данного исследования так как в процессе предварительной обработки текста считаются частотные характеристики для определённого количества стилистических маркеров. Такой набор показателей будет удобно выражать и сравнивать с помощью векторов.

1.2.4 Маркеры стиля и их классификация

Маркеры стиля, лингвистические характеристики текста, являются основной единицей, на основе которой выделяются данные для дальнейшей идентификации стиля. Данные параметры могут быть выделены экспертом или быть стандартными характеристиками того или иного стиля, но в общем можно выделить следующие классификации:

1. По значимости. Степень влияния маркеров на результат сравнения может быть разная. Так, высокая частотность употребления одного маркера может полностью изменить результат идентификация стиля. Особенно значимость будет влиять на результат в задачах определения авторства, в случаях, когда тот или иной автор использует речевой оборот как свою уникальную характеристику. Так, например, Мишель Талер написал книгу «Поезд ниоткуда» не используя ни одного глагола. При анализе такого текста, значимость глагола явно должна быть ниже, чем остальных маркеров.

2. По принадлежности к тому или иному функциональному стилю. Маркеры могут быть выделены с помощью определения функциональных стилей и представлять собой набор классов-особенностей, каждый из которых содержит в себе подклассы с речевыми оборотами свойственными рассматриваемому стилю текста. Стоит отметить, что классы могут принадлежать к нескольких стилевым наборам одновременно.

3. По принадлежности к уровню языка. Маркеры могут быть разделены на синтаксические, морфологические, лексические, семантические и т.д.

4. По размеру языковой единицы. Слово, предложение, абзац и т.д.

5. Экспертная классификация. Разделение маркеров может быть произведено на основании мнения экспертов. Классы в таких случаях выделяются на основе опыта эксперта, исследований соответствующей литературы, анализа определенных корпусов текста.

Набор маркеров для разрабатываемой системы должен быть составлен экспертной группой и не подлежать изменению через пользовательский интерфейс. Исследования, рассмотренные в п. 1.2.2. используют для сравнения наборов данных несколько составляющих. Помимо метода представления текстовой информации и набора маркеров, описанных выше, для идентификации стиля текста используется модель, в соответствии с которой сравниваются статистические характеристики текста.

1.2.5 Анализ моделей сравнения текста

Рассмотрим модели сравнения текстовых характеристик, используемые в исследованиях, описанных выше. Большая часть из них применима к векторному представлению текстовой информации, но также может быть использована в другом контексте для других методов представления текста.

Выбрав метод представления текстовой информации, необходимо выбрать способ, которым будут сравниваться стилистические характеристик текстов. Выше были рассмотрены основные методы сравнения моделей текстов и примеры их применения, необходимо провести сравнение и выбрать метод, наиболее подходящий для решаемой задачи. Обозначим критерии на основе которых производится выбор:

1. Интервал, в котором находится получаемое значение. Необходимо понимать, в каком виде будет получаться показатель, чтобыего интерпретировать далее.

2. Ограничение по количеству признаков для сравнения.

3. Дополнительные показатели. Требование дополнительных показателей может осложнить работу, поэтому стоит обозначить его на этапе выбора метода сравнения.

4. Влияние выбросов. В любой выборке можно встретиться с таким явлением как выброс, результат, выделяющийся из общей выборки.

Описанные ниже метрики сравнения текстов рассматриваются в соответствии с перечисленными критериями.

Косинусная мера

Косинусная мера (или косинусное сходство) - это мера близости двух ненулевых векторов в едином векторном пространстве, которая измеряется косинусом угла между этими векторами [30, 31]. Данный показатель рассчитывается по формуле:

(6)

где Ai- значение i-того свойства вектора А,

Bi- значение i-того свойства вектора В,

n - количество признаков

Значение частоты признака не может быть отрицательным, значит значение косинусной меры находится в интервале [0,1] и угол не превышает 90°. Таким образом, можно выделить следующие закономерности:

1. Значение косинуса равно 1. Векторы находятся параллельно друг другу или совпадают, значит тексты максимально похожи по данному набору признаков.

2. Значение равное 0, показывает, что векторы расположены перпендикулярно друг к другу, а значит тексты похожи в минимальной степени[32].

Данный метод является наиболее популярным и часто используется для таких задач как сравнение текстов, информационный поиск, классификация и т.д. Например, в статье [29] решается две задачи: задача семантического подобия текстов и обнаружение повторного использования. Для последней используется метод косинусного расстояния между векторами с более чем 300 признаками. В другом источнике [11], автор рассматривает несколько моделей, применяющихся в качестве основания текстовых поисковых систем, одна из которых - векторное пространство. В эксперименте на выявление поисковой эффективности моделей, для сравнения векторов используется косинусная мера, которая показала более релевантный результат по сравнению с другими моделями. Косинусную меру использует в своей работе Word2Vec, технология от Google предназначенная для статистической обработки больших массивов текстовой информации [33].

Евклидово расстояние

С геометрической точки зрения Евклидово расстояние обозначает расстояние между точками в многомерном пространстве. Значение может быть вычислено по формуле:

(7)

где P - расстояние между векторами А и В,

Ai- значение i-того свойства вектора А,

Bi- значение i-того свойства вектора В,

N - количество признаков

Подобный метод расчёта расстояния является нецелесообразным в случае, если признаки в векторе выражены в разных величинах. Чаще всего евклидово расстояние применяется в случае, когда все признаки векторов имеют одинаковую значимость и вес, а также однородны по единицам измерения. Евклидово расстояние может быть использовано для сравнения нескольких объектов в задаче классификации. Так например, в статье [34] данная метрика применяется в реализации экспертной системы для выбора научного руководителя на основе предпочтений студента. Образ преподавателя и образ предпочтений студента представляются как векторы признаков, и посредством сравнения система рекомендует тех или иных преподавателей студенту для выбора в качестве научного руководителя.

Т. Батура, в своей статье [15], упоминает систему СМАЛТ, которая использует Евклидову меру для иерархической кластеризации. Эксперимент заключался в определении авторства текстов Ф.М. Достоевского основываясь на двух наборах признаков: основного (16 признаков частей речи) и расширенного (156 дополнительных морфологических признаков).

Взвешенное евклидово расстояние

Взвешенное евклидово расстояние применимо в том случае, когда каждому признаку из набора возможно указать некоторый вес, который будет обозначать степень важности признака. В таком случае, расстояние вычисляется по формуле:

(8)

где P - расстояние между векторами А и В,

Ai - значение i-того свойства вектора А,

Bi - значение i-того свойства вектора В,

?i- вес соответствующего признака,

N - количество признаков

Вес каждого признака должен быть больше 0, а сумма весов всех признаков должна быть равна 1. Так как хаотичное распределение весов может дать ложные данные, назначение весов признакам требует некоторых исследований, таких как, например, опрос экспертов и анализ их мнений. Примером применения метрики может служить статья Е.В. Тимошина и Е.А. Семенчева[35], в которой «взвешенное» Евклидово расстояние применяется в реализации системы принятия решений при продаже товара. Для вычислений были созданы векторы признаков заказа и вектор исходного товара.

В контексте решаемой задачи сравнения стилистических характеристик текстов, определение весов для маркеров стиля является нецелесообразным, так как все они являются одноуровневыми характеристиками одного текста. Ни одна из стилистических характеристик не может описывать стиль текста лучше или хуже другой - стилистический портрет текста задается комплексно.

Расстояние городских кварталов

Также называется манхэттенским расстоянием. Данное расстояние вычисляется по формуле:

(9)

где P - расстояние между векторами А и В,

Ai- значение i-того свойства вектора А,

Bi - значение i-того свойства вектора В,

n - количество признаков

Согласно источникам [34,36], расстояние городских кварталов дает схожий результат с евклидовым расстоянием, но с меньшим влиянием выбросов, так как в формуле отсутствует возведение в квадрат. В статье [37], расстояние городских кварталов используется для идентификации человека по походке, на основании представленных в векторном виде показаний, которые записывают носимые человеком сенсоры.

Расстояние Чебышева

Расстояние Чебышёва - это мера близости в векторном пространстве, которая принимает значение максимального модуля разности между значениями соответствующих признаков:

(10)

где P - расстояние между векторами А и В,

Ai - значение i-того свойства вектора А,

Bi - значение i-того свойства вектора В

Расстояние Чебышёва является достаточно грубой метрикой, так как часть информации игнорируется и, чаще всего, сравнение происходит по какому-то одному из признаков. В общем случае, данный метод сравнения применим тогда, когда нужно определить векторы как «различные».

Расстояние Левенштейна

Минимальное количество операций вставки, удаления и замены одного символа, необходимых для превращения одной строки в другую в компьютерной лингвистике называют расстоянием Левенштейна или редакционным расстоянием [38].

Расстояние Левенштейна и его обобщения активно применяется:

? для исправления ошибок в слове (в поисковых системах, базах данных, при вводе текста, при автоматическом распознавании отсканированного текста или речи).

? для сравнения текстовых файлов утилитой diff и ей подобными. Здесь роль «символов» играют строки, а роль «строк» - файлы.

? в биоинформатике для сравнения генов, хромосом и белков.

? Для расстояния Левенштейна справедливы следующие утверждения[38]:

?

d (S1,S2)?||S1|?|S2||

d (S1,S2)?max(|S1|,|S2|) (11)

d (S1,S2)=0?S1=S2

где d (S1, S2) -- расстояние Левенштейна между строками S1 и S2,

|S| -- длина строки S.

Например, расстояние Левенштейна между словами «стилометрия» и «стилеметрия» равно 1, так как для того, чтобы сделать их одинаковыми необходимо произвести замену 1 символа. Данная метрика вряд ли подходит для сравнения стилистических характеристик текстов, так как не предполагает использование числовых измерений для вычисления. Расстояние Левенштейна не дает четкого понимания о стилистическом соответствии объектов сравнения.

Расстояние Жаккара

В 1901 году Поль Жаккар предложил бинарную меру сходства между двумя множествами. Коэффициент подобия может быть вычислен по следующей формуле:

, (12)

где KJ - это вычисляемый коэффициент Жаккара

А - первое множество

В - второе множество

- количество общих уникальных элементов множеств

- количество всех уникальныхэлементов множеств

Таким образом, расстояние Жаккара представляет собой отношение между количеством уникальных элементов повторяющихся в двух выборках и количеством всех уникальных элементов из двух множеств. Относительно примера упомянутого выше, мера Жаккара для слов «стилометрия» и «стилеметрия» будет следующей:

Уникальные символы слова «стилометрия» -С, Т, И, Л, О, М, Е, Р, Я - 9 символов.

Уникальные символы слова «стилеметрия» - С, Т, И, Л, Е, М, Р, Я - 8 символов.

Общее количество уникальных символов - С, Т,И, Л, О, Е, М, Р, Я - 9 символов.

Таким образом:

Коэффициент Жаккара для слов «стилометрия» и «стилеметрия» равен 0,88 или 88%. Также, как и расстояние Левенштейна, коэффициент Жаккара представляет собой качественное соответствие текстов, в то время как задача идентификации стиля текста требует стилистической характеристики каждого объекта сравнения.

Рассмотренные модели сравнения текста дают конечную численную характеристику близости текстов, что решает проблему субъективности и неточности экспертной оценки. На основе анализа предметной области, проведенного выше, следует сформировать требования для проектируемой системы.

Сравнительная характеристика моделей сравнения текстов

По вышеописанным критериям было проведено сравнение рассмотренных выше метрик, результаты представлены в табл.1.1.Стоит отметить, что расстояние Левенштейна не было включено в сравнение, так как данная метрика предназначена для сравнения текстов, а не конкретных характеристик, таких как стиль.

Таблица 1.1. Сравнительная характеристика метрик сравнения векторов

Метод/Критерий

К1

К2

К3

К4

Косинусная мера

[0;1]

-

-

Меньше, чем у евклидовой и взвешенной евклидовой мер

Евклидово расстояние

-

-

-

Чувствительность к выбросам высокая из-за возведения значений в квадрат

Взвешенное Евклидово расстояние

-

-

Вес для каждого признака

Чувствительность к выбросам высокая из-за возведения значений в квадрат

Расстояние городских кварталов

-

-

-

Меньше, чем у евклидовой и взвешенной евклидовой мер

Расстояние Чебышёва

-

Один признак

-

Чувствительность к выбросам высокая из-за выбора максимального значения при подсчете показателя

На основании проведенного выше анализа, для дальнейшего применения выбрана косинусная мера сравнения векторов. Во-первых, выбор обоснован тем что косинусная мера нормализует результаты с учетом длины вектора документ, что является важным аспектом в рассматриваемой задаче, так как размеры документов, особенно в корпусе академических статей, может сильно варьироваться. Во-вторых, значение результата лежит в интервале от 0 до 1, что удобно для дальнейшей интерпретации. Данный метод применим если в сравнении участвуют два объекта, например, два корпуса или текст и корпус текстов.

Таким образом, учитывая вышеописанные метод представления текстовой информации и способ их сравнения, можно составить модель сравнения стилистических характеристик текстов. Процесс можно разделить на два этапа - представление набора статистических данных одного текста в вектор и вычисление меры близости между векторами.

1.3 Обзор систем идентификации стиля текста

На данный момент реализовано большое количество систем, предназначенных для анализа текста и его стиля. Выявление требований к проектируемой системе требует провести обзор подобных систем и методов их реализации.

Web-система «Лингвоанализатор»

Система позиционируется как программа для математического анализа структуры текста [39]. Целью данного анализа является сравнение двух текстов на предмет близости - любого текста, предложенного пользователем и авторского эталона, определенного заранее, который представляет собой корпус текстов конкретного автора.

Система предлагает два варианта внесения текстовых данных - ввод текста на экранной форме системы и загрузка текстового файла. После обработки текста, пользователю представляются имена трех писателей которые могли бы быть авторами загруженного текста. Помимо имен писателей, Лингвоанализатор вычисляет по три произведения для каждого из авторов, которые наиболее близки тексту пользователя. База программы содержит 1357 работ 128 писателей. Математическая модель, на основе которой производится анализ текстов учитывает следующие характеристики стиля автора:

1. Число служебных слов таких как предлоги союзы, частицы и т.д.

2. Морфемы, используемые в словах - приставки, корни, суффиксы, окончания

3. Сложность конструкций, которые использует автор

4. Авторский словарь

Модель программы основана на представлении текстов как последовательности букв, которые являются реализациями цепи Маркова. Близость текстов вычисляется как число переходов пар букв между текстами (вариация расстояния Жаккара). Таким образом анализируется близость между всеми текстами в базе системы и вычисляются 3 автора чьи тексты оказались наиболее «близкими».

Лингвистический процессор «Атрибутор»

Программа «Атрибутор» это лингвистический процессов для сравнения и классификации текстов в рамках авторского стиля[40].Целью системы является анализ загруженного текста и определение авторства либо представление списка авторов, чьи стили наиболее близки к стилю представленного для обработки текста.

Перечень авторов предварительно определен в системе и составляет 103 известных русских и советских писателя 19 и 20 веков. Авторы системы предусмотрели несколько результатов анализа текста:

1. Определение автора текста из имеющейся базы.

2. Вывод сообщения о том, что автора в базе нет. Такой вывод возможен в случае если характеристики загруженного текста значительно отличаются от тех что имеются в базе системы.

3. Вывод списка близких по стилю авторов и сообщения о том, что текст не содержит стилистических черт. Данный ответ подразумевает что текст не совпадает по стилистике с каким-либо текстом из имеющейся выборке, но довольно близок по характеристикам к каким-либо из них.

За единицу сравнения принимаются так называемые триады - трёхбуквенные сочетания, в которых также используются пробелы. Из уникальных и просуммированных триад получается образ авторского стиля текста, которые в дальнейшем используется для вычисления близости.

Система «СМАЛТ»

Как и системы аналоги, «СМАЛТ» содержит базу литературных произведений на основе которой происходит сравнение загруженных текстов. На данный момент система находится на стадии разработки. В основе алгоритма сравнения стилистических особенностей текстов лежат методы математической статистики, предложенные Г. Хетсо[18].

Для анализа текста выявляются следующие параметры:

1. Средняя длина слова в буквах, вычисляемая на основании выборок в 500 слов.

2. Общее распределение длины слова

3. Средняя длина предложения

4. Общее распределение длины предложения

5. Словарь текста

6. Индекс разнообразия лексики

Исследование в рамках каждого параметра производилось следующим образом. Для каждого параметра определялось критическое значение автора и числовое значение для текста, в случае если первый параметр превышал второй, то статья относилась к конкретному автору. Для каждого параметра критерий формирования числового значения выбирается отдельно. Таким образом, для вычисления критического значения средней длины слов в буквах использовался критерий Стьюдента, для общего распределения длины слова - критерий Колмогорова-Смирнова.

Система «Антиплагиат»

Проверка на плагиат на текущий момент является обязательным условием публикации, а также широко используется в образовании. Система Антиплагиат осуществляет проверку текстовых документов на предмет заимствований из других источников. Поиск совпадении происходит посредством сравнения последовательностей символов без учета языковых особенностей и связей [15].

База источников системы регулярно обновляется. Система производит сбор информации различных источников, а также обработку текстов, отбрасывая неинформативные интернет-источники, например, рекламные сайты, новостные ленты и т.д.

Программный код системы, а также все используемые алгоритмы являются собственность. Компании «Форексис» и представляют коммерческую тайну, поэтому открытого доступа к ним нет. Основным недостатком системы является невозможность выявления заимствований если из предложения убрали или добавили слово. К тому же на текущий момент реализовано большое количество сервисов, которые позволяют «обходить» систему.

1.4 Формулировка задачи, условия и ограничения

Как было указано ранее в п. 1.1., основными недостатками бизнес-процесса AS-ISявляются: высокие трудозатраты, неточность оценки близости стилей текстов, детерминированность времени выполнения процесса и монотонность выполняемой экспертом работы. На основе полученных при анализе текущего выполнения бизнес-процесса сведений необходимо составить условия для проектируемой системы.

Задачей системы сравнения стилистических характеристик текстов является подсчет процента близости стилей текстов. При выполнении этой задачи система должна обеспечивать быстродействие, минимальное вмешательство пользователя в процесс работы системы, а также конкретный численный результат.

...

Подобные документы

  • Черты научного стиля, которые отличают его от других стилей английского языка. Функции и признаки текстов научного стиля, их разновидности. Исследование основных лексических, грамматических и стилистических особенностей текстов английской научной речи.

    курсовая работа [603,0 K], добавлен 21.04.2015

  • Рассмотрение стилистических закономерностей функционирования языка. Исследование системы стилистических средств современного английского языка. Специфика художественного стиля Джером К. Джером и Хемингуэя; сравнительная характеристика произведений.

    курсовая работа [120,4 K], добавлен 19.01.2015

  • Понятие выразительных стилистических средств языка. Различные взгляды ученых на классификацию стилистических выразительных средств. Функционирование стилистических фигур в художественном произведении Дж. Фаулза "Коллекционер". Типичные черты стиля автора.

    курсовая работа [40,6 K], добавлен 05.11.2013

  • Описание профессии учителя с использованием стилистических средств разговорного, официально-делового, научного и публицистического жанров. Содержательно-логический анализ текстов: ситуация общения, языковые средства, определение стиля и речевого жанра.

    контрольная работа [19,5 K], добавлен 18.08.2011

  • Характеристика публицистического стиля, его основные черты. Тематическая неограниченность газетно-публицистического стиля, определяющая широту и разнообразие его лексики. Соотношение двух групп стилистических средств - признаваемого и отвергаемого.

    курсовая работа [45,2 K], добавлен 23.04.2019

  • Теоретическое исследование структуры сравнительных прилагательных в русском и английском языках, оценка их стилистических возможностей. Анализ романа Шарлотты Бронте "Джен Эйр" на предмет использования прилагательных в форме степеней языкового сравнения.

    дипломная работа [209,6 K], добавлен 19.07.2014

  • Функциональный стиль в современной лингвистике. Рассмотрение основных характеристик газетно-публицистического стиля. Межуровневая категоризация стилистических средств в английском и узбекском газетном тексте, словообразовательные характеристики статьи.

    диссертация [182,5 K], добавлен 18.08.2011

  • Обзор публицистического стиля речи как функциональной разновидности литературного языка. Анализ стилистических особенностей употребления лексических средств в создании портрета Д. Медведева. Описания использования эпитетов, антитезы, аллюзии, антономазии.

    дипломная работа [99,5 K], добавлен 21.06.2011

  • Особенности применения эпитета как средства художественной выразительности в произведении О. Уайльда "Мальчик-звезда". Рассмотрение способов достижения авторского стиля с помощью эпитета и сравнения в произведении. Анализ стилистических средств языка.

    курсовая работа [45,2 K], добавлен 25.11.2016

  • Понятие функционального стиля в современной лингвистике. Исследование специфики межуровневых стилистических средств газетного-публицистического текста, их отличие от художественного. Словообразование в газетной статье в английском и в узбекском языках.

    диссертация [205,5 K], добавлен 17.08.2011

  • Стилистика как наука, ее место в ряду лингвистических дисциплин. Общая характеристика стилей текстов и классификация стилистических ошибок в русском языке. Особенности публицистического стиля. Исследование молодежных журналов и их читательской аудитории.

    курсовая работа [40,5 K], добавлен 22.11.2010

  • Роль сопоставительного метода в изучении вопросов стилистики. Способы образования стилистического приёма сравнения. Анализ межъязыковых соответствий и источников сравнения в разносистемных языках. Структурные и семантические типы и функции сравнения.

    дипломная работа [71,7 K], добавлен 23.12.2011

  • Характеристика и главные трудности перевода художественного текста. Стилистические средства художественной речи. Эквивалентность как важнейшая характеристика перевода. Классификация переводческих трансформаций. Анализ перевода стилистических средств.

    дипломная работа [84,7 K], добавлен 26.05.2015

  • Изучение лексико-грамматических и стилистических особенностей перевода военных текстов. Текстуальные категории военных текстов. Выявление специфических приемов перевода, используемых для передачи текстов военного характера с английского языка на русский.

    дипломная работа [94,1 K], добавлен 20.05.2015

  • Классификация рекламных текстов. Стилистическое средство как способ передачи выразительности. Методы передачи средств экспрессивности в рекламном тексте. Типология стилистических средств. Анализ перевода английских рекламных текстов на русский язык.

    дипломная работа [77,5 K], добавлен 13.04.2015

  • Исследование лексических и стилистических особенностей английской и русской публицистики. Изучение способов образования публицистических текстов. Анализ лексико-семантических средств в публицистическом тексте на основе газет "Вечерняя Казань" и "Times".

    курсовая работа [48,7 K], добавлен 25.09.2015

  • Положительная, сравнительная и превосходная степени сравнения прилагательных в английском языке, степени сравнения наречий, двусложные и многосложные прилагательные. Доминирующие степени сравнения в произведении "Алиса в Зазеркалье" и их назначение.

    курсовая работа [40,8 K], добавлен 12.06.2010

  • Исследование системы норм литературного русского языка. Обзор морфологических, синтаксических и стилистических признаков официально-деловой речи. Анализ особенностей дипломатического, законодательного и административно-канцелярского стилей деловой речи.

    реферат [34,6 K], добавлен 22.06.2012

  • Проведение адекватного перевода оригинального английского текста на русский язык. Определение и анализ лексических, грамматических и стилистических средств выразительности языка научно-популярного стиля, понятия и эмоционально–образные приёмы текста.

    дипломная работа [53,8 K], добавлен 05.07.2012

  • Выявление стилистических особенностей газетных текстов, изучение их структуры в английском языке. Особенности и подходы к переводу английских заголовков. Изучение основных способов перевода английских газетно-информационных текстов и их систематизация.

    дипломная работа [110,4 K], добавлен 14.05.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.