Вероятностные методы сопоставления литературных текстов
Сущность и предмет исследования, а также история развития компьютерной лингвистики. Особенности применения статистических методов в языкознании. Математический аппарат для исследования текстов на естественном языке, используемое программное обеспечение.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 12.06.2016 |
Размер файла | 61,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Введение
лингвистика статистический языкознание программный
В современном мире, как научная сфера, так и повседневная жизнь людей невообразима без автоматизированных информационных технологий. На протяжении последних десятилетий их значение стремительно растет. В то время как развитие вычислительной техники и средств коммуникации достигло невероятных успехов, достижения в области смысловой обработки информации несколько скромнее. Это объясняется, прежде всего, тем, что необходимо более глубоко изучить процессы человеческого мышления и формирования речи, а также научиться их моделировать с использованием компьютеров.
В настоящее время поиск решения проблем автоматической обработки текстовой информации на естественном языке представляет особый интерес для ученых. Это объясняется тем, что естественный язык является не только инструментом мышления и общения между людьми, но и универсальным средством накопления, хранения, обработки и передачи информации. Применение естественного языка в системах автоматической обработки информации является областью изучения такой науки, как компьютерная лингвистика.
Компьютерная лингвистика - сравнительно молодая наука: она возникла около шестидесяти лет назад. Однако за недолгий период существования этой науки были достигнуты значительные успехи, получены определенные научные и практические результаты, а именно: предложены инновационные, перспективные методы и идеи, связанные с разработкой различных прикладных программных систем. К сожалению, пока еще не все из них нашли выражение в программных продуктах, применяемых на практике. Именно поэтому в компьютерной лингвистике существует еще множество областей, требующих глубокого изучения, а также дальнейшего применения на практике полученных результатов. Область приложений компьютерной лингвистики постоянно расширяется. Наиболее известными прикладными задачами являются: информационный поиск, классификация и кластеризация текстов, создание словарей, систем машинного перевода текстов с одних естественных языков на другие и систем автоматического анализа устной речи и многое другое.
Данное исследование непосредственно относится к одной из наиболее обширных областей компьютерной лингвистике - автоматической обработке текстовой информации - и посвящено такой проблеме, как выявление сходства между литературной деятельностью поэтов.
Актуальность данной работы определяется необходимостью решения различных задач искусственного интеллекта и в частности усовершенствования существующих методов анализа и сопоставления литературных текстов. Построение математических и компьютерных моделей поэтических текстов может найти широкое применение в различных областях, например, в рекомендательных системах. Так, модель, построенная на основании литературных произведений автора, может быть рассмотрена в качестве модели так называемого авторского «художественного мира». В свою очередь умение сравнивать, анализировать и выявлять сходство между литературными произведениями позволит значительно улучшить качество рекомендаций, получаемых пользователями с помощью рекомендательных систем. Кроме того, определение сходств и различий между авторскими текстами позволит решить проблемы вычисления авторского инварианта, установления авторства анонимных и написанных под псевдонимами текстов, а также выявления плагиата в текстах.
Ввиду того, что подобного рода задачи стали актуальными для искусственного интеллекта не так давно, то в настоящее время пока лишь небольшое число работ посвящено данной проблеме. Одной из наиболее известных является работа ученого В.С. Баевского, результаты которой подробно изложены в его книге «Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы». В.С. Баевский применял статистические методы (частотный анализ, ранговый корреляционный анализ) для анализа литературной ситуации в поэтическом мире в определенные исторические периоды. Другими словами, автор показал, как можно получить статистическое отображение литературных процессов и явлений в области поэзии. Исследование, проведенное В.С. Баевским, сделало возможным нахождение ответов на многие вопросы, которые ставят перед собой не только филологи и ученые - литературоведы, но и обычные любители поэзии. Например, чье творчество ближе к литературной деятельности Блока - Ахматовой или Гумилева? Какова «связь» между творчеством поэтов, представляющих тот или иной исторический период в литературе? Применение достаточно мощного аппарата математической статистики позволяет проводить глубокое исследование историко-литературных процессов и, возможно, с его помощью в ближайшее время станет возможным найти решение такой актуальной проблемы в литературоведении, как определение наличия или отсутствия влияния одних писателей на других, а также вычисление степени этого влияния.
Основными целями данной работы являются выявление сходства между литературной деятельностью русских поэтов, а также определение характеристик, которые могут быть использованы для сопоставления поэтических текстов.
Главными задачами проводимого исследования являются:
§ вычисление частотных характеристик литературных текстов;
§ определение «близости» «художественных миров» поэтов;
§ сопоставление поэтических текстов.
Предметом исследования является вопрос, связанный с определением того, насколько в рамках одного литературного течения «близки» в своем творчестве поэты, которые, по мнению литературоведов, являются представителями акмеизма, имажинизма, символизма и футуризма - направлений в «поэзии серебряного века. В качестве основных инструментов для проведения данного исследования используются частотный анализ и ранговый корреляционный анализ.
В качестве объекта исследования выступают литературные произведения поэтов, чье творчество относится к «поэзии серебряного века» (конец XIX - начало XX вв.).
Новизна данной работы заключается в применении частотного и корреляционного анализа к поэтическим текстам с целью разработки методики их сопоставления для выявления «близости» литературной деятельности авторов. Также принципиально новым в данной работе является использование частотных словарей, состоящих из N-грамм, N=3, 4, 5, для сравнения литературных текстов поэтов.
Первая глава данной работы рассказывает об истории развития компьютерной лингвистики и основных этапах ее формирования как научного направления. Также в этой главе говорится о взаимодействии науки о языке и математики и о том, как методы математической статистики нашли свое применение при решении ряда задач, в результате чего и была сформирована квантитативная (статистическая) лингвистика.
Вторая глава посвящена описанию математического аппарата для исследований текстов на естественном языке и, в частности, для проведения литературоведческих исследований.
В третье главе представлено описание программного обеспечения, с помощью которого производится анализ и сопоставление литературных текстов.
1. История, развитие и становление компьютерной лингвистики как научного направления
лингвистика статистический языкознание программный
1.1 История развития компьютерной лингвистики
Процесс становления и формирования современной лингвистики как науки о естественном языке представляет собой длительное историческое развитие лингвистического знания. В основе лингвистического знания лежат элементы, формирование которых происходило в процессе деятельности, неразрывно связанной с освоением структуры устной речи, появлением, дальнейшим развитием и совершенствованием письма, обучением письму, а также толкованием и расшифровкой текстов.
Естественный язык как объект лингвистики занимает центральное место в этой науки. В процессе развития языка менялись и представления о нем. Если раньше не придавалось особого значения внутренней организации языка, и он рассматривался, прежде всего, в контексте взаимосвязи с внешним миром, то, начиная с конца XIX - начала XX вв., особая роль отводится внутреннему формальному строению языка. Именно в этот период известным швейцарским лингвистом Фердинандом де Соссюром были разработаны основы таких наук, как семиология и структурная лингвистика, и подробно изложены в его книге «Курс общей лингвистики» (1916).
Ученому принадлежит идея рассмотрения языка как единого механизма, целостной системы знаков, что в свою очередь дает возможность описать язык математически. Соссюр первым предложил структурный подход к языку, а именно: описание языка посредством изучения соотношений между его единицами. Под единицами, или «знаками» он понимал слово, которое объединяет в себе и смысл, и звучание. В основе концепции, предложенной швейцарским ученым, лежит теория языка как системы знаков, состоящей из трех частей: языка (от фр. langue), речи (от фр. parole) и речевой деятельности (от фр. langage).
Сам ученый определял создаваемую им науку семиологию как «науку, изучающую жизнь знаков в рамках жизни общества».[1] Поскольку язык - это знаковая система, то в поиске ответа на вопрос о том, какое место лингвистика занимает среди других наук, Соссюр утверждал, что лингвистика - это часть семиологии. Принято считать, что именно швейцарский филолог заложил теоретический фундамент нового направления в лингвистике, став основоположником, «отцом» современного языкознания.
Концепция, выдвинутая Ф. де Соссюром, получила дальнейшее развитие в работах многих выдающихся ученых: в Дании - Л. Ельмслев, в Чехии - Н. Трубецкой, в США - Л. Блумфилд, 3. Харрис, Н. Хомский. Что касается нашей страны, то здесь структурная лингвистика начала свое развитие примерно в тот же период времени, что и на Западе, - на рубеже XIX-XX вв. - в трудах Ф. Фортунатова и И. Бодуэн де Куртенэ. Следует отметить, что И. Бодуэн де Куртенэ тесно сотрудничал с Ф. де Соссюром. Если Соссюр заложил теоретический фундамент структурной лингвистики, то Бодуэн де Куртенэ может считаться человеком, заложившим основы практического применения методов, предложенных швейцарским ученым. Именно он определил лингвистику как науку, использующую статистические методы и функциональные зависимости, и отделил ее от филологии. Первым опытом применения математических методов в языкознании стала фонология - наука о структуре звуков языка.
Следует отметить, что постулаты, выдвинутые Ф. де Соссюром, смогли найти отражение в проблемах лингвистики актуальных в середине XX века. Именно в это период и намечается явная тенденция к математизации науки о языке. Практически во всех крупных странах начинается бурное развитие науки и вычислительной техники, что в свою очередь потребовало все более новых лингвистических основ. Результатом всего этого стало быстрое сближение точных и гуманитарных наук, а также активное взаимодействие математики и лингвистики нашло практическое применение при решении актуальных научных проблем.
В 50-е годы XX века на стыке таких наук, как математика, лингвистика, информатика и искусственный интеллект, возникло новое направление науки - компьютерная лингвистика (известной также под названием машинная лингвистика или автоматическая обработка текстов на естественном языке). Основные этапы развития этого направления происходили на фоне эволюции методов искусственного интеллекта. Мощным толчком к развитию компьютерной лингвистики послужило создание первых ЭВМ. Однако с появлением в 60-х годах нового поколения компьютеров и языков программирования начинается принципиально новый этап в развитии этой науки. Также следует отметить, что истоки компьютерной лингвистики восходят к трудам известного американского ученого-лингвиста Н. Хомского в области формализации структуры языка. Результаты его исследований, полученные на стыке лингвистики и математики, сформировали основу для развития теории формальных языков и грамматик (порождающих, или генеративных, грамматик), которая широко применяется для описания как естественных, так и искусственных языков, в частности языков программирования. Если говорить точнее, то эта теория является вполне математической дисциплиной. Ее можно считать одной из первых в таком направлении прикладной лингвистики, как математическая лингвистика.
Первые эксперименты и первые разработки в компьютерной лингвистике относятся к созданию систем машинного перевода, а также систем, моделирующих языковые способности человека. В конце 80-х годов с появлением и активным развитием сети Интернет произошел бурной рост объемов текстовой информации, доступной в электронном виде. Это привело к тому, что технологии информационного поиска перешли на качественно новую ступень своего развития. Возникла необходимость автоматической обработки текстов на естественном языке, появились совершенно новые задачи и технологии. Ученые столкнулись с такой проблемой, как быстрая обработка огромного потока неструктурированных данных. С целью найти решение для данной проблемы большое значение стало уделяться разработке и применению статистических методов в области автоматической обработки текстов. Именно с их помощью оказалось возможным решение таких задач, как разбиение текстов на кластеры, объединенные общей тематикой, выделение в тексте определенных фрагментов и т.д. Кроме этого, применение методов математической статистики и машинного обучения позволило решить задачи распознавания речи и создания поисковых систем.
Ученые не останавливались на достигнутых результатах: они продолжали ставить перед собой все новые цели и задачи, разрабатывать новые приемы и методы исследования. Все это привело к тому, что языкознание стало выступать в качестве прикладной науки, объединяющей в себе ряд других наук, ведущая роль среди которых принадлежала математике с ее многообразием количественных методов и возможностью их применять для более глубокого осмысления изучаемых явлений. Так начала свое формирование и развитие математическая лингвистика. На данный момент это достаточно «молодая» наука (существует около пятидесяти лет), однако, несмотря на свой весьма «юный возраст», она представляет собой уже сложившуюся область научных знаний с множеством успешных достижений.
1.2 Наука о языке и математика
В период научно-технической революции, когда вычислительная техника развивалась очень быстрыми темпами, происходила математизация практически всех сфер человеческой деятельности. Не осталась в стороне даже такая гуманитарная наука, как языкознание. Проникновение в лингвистику математических методов происходила по определенным причинам.
Во-первых, в ходе развития теоретической и прикладной лингвистики требовалось введение очень точных и объективных методов для анализа языка и текстов. В то же время применение на практике математических методов и приемов для систематизации и обобщения лингвистического материала, а также качественная интерпретация полученных результатов предоставили ученым-лингвистам возможность глубже проникнуть и осознать скрытые на первый взгляд особенности образования языка и построения текстов.
Во-вторых, слияние языкознания с другими, совершенно не похожими на него научными областями такими, как кибернетика, вычислительная техника, физиология высшей нервной деятельности и многие другие, невозможно без участия математических дисциплин, а точнее языка математики, характеризующегося высокой степенью общности и универсальности. Отдельно следует отметить, что математизация гуманитарной науки лингвистики происходила по причине того, что в системах машинного перевода и человеко-машинного диалога, также в информационных и управленческих системах сообщения на естественном языке должны быть представлены в той форме, которая будет «понятна» компьютеру, а именно перекодирована в математический язык.
Говоря о взаимодействии науки о языке и математики, следует иметь в виду тот факт, что естественный язык, также как и язык математики являются семиотическими, или знаковыми, системами. Это взаимодействие требует, чтобы каждому лингвистическому объекту был поставлен в соответствие некоторый математический объект. Например, слово и составляющие его буквы, слоги, фонемы и т.д. должны быть представлены с помощью математических обозначений. Другими словами, подобная математическая интерпретация включает в себя выделение в лингвистическом объекте смысловых компонент, которые и становятся объектом дальнейшего исследования.
Главной целью применения математических методов в языкознании является замена интуитивно сформулированной лингвистической задачи, не имеющей полного решения, одной или несколькими понятными, четко сформулированными, алгоритмизированными математическими задачами.
Подобный подход крайне необходим, прежде всего, при решении проблем и задач прикладной лингвистики, связанных с анализом устной речи и автоматической обработкой текстов (составление частотных словарей, пословный, а также семантический машинный перевод).
Комбинаторная и квантитативная лингвистика
Выбор соответствующего математического аппарата для различных лингвистических исследований очень важен. В первую очередь он зависит от того, как определяется предмет и основные понятия структурно-математической лингвистики.
Многие ученые-лингвисты считают, что основным объектом для изучения в структурно-математической лингвистике являются грамматики, порождающие текст. Под грамматикой понимается конечное множество детерминированных правил, а под языком - бесконечное число регулярных цепочек слов, которые порождаются этой грамматикой. При таком подходе обычно опираются на методы так называемой «неколичественной» математики, в которой доминирующая роль отведена математической логике, теории алгоритмов, теории множеств.
Что касается «количественных» математических методов - теории вероятностей, математической статистики, математического анализа, - то они используются в качестве методов, играющих, как правило, вспомогательную роль. Таким образом, в зависимости от того, какой математический аппарат - «качественный» («неколичественный») или «количественный» - применяется, в теоретическом языкознании выделяют соответственно комбинаторную и квантитативную лингвистику. Решение важнейших задач и проблем современной прикладной лингвистики становится возможным только в случае применения методов как «качественной», так и «количественной» математики.
Говоря подробнее о термине квантитативная лингвистика, следует отметить, что он характеризует междисциплинарное направление в исследованиях прикладной лингвистики, в котором в качестве основного инструмента изучения языка выступают статистические методы анализа.
Этот раздел науки о языке изучает частотные характеристики языка - слов, словосочетаний, синтаксических конструкций и др. При этом используются методы теории вероятностей и математической статистики, поэтому эту науку часто называют статистической лингвистикой.
С теоретической точки зрения, применение статистических методов в лингвистических исследованиях позволяет создать структурно-вероятностную модель языка, другими словами, структурная языковая модель дополняется вероятностными компонентами. В результате чего ее так называемый «объяснительный потенциал» значительно возрастает. С этой точки зрения, количественные методы математики могут рассматриваться в качестве приложения статистики в языкознании. Иначе говоря, задача построения структурно-вероятностной модели языка принадлежит к числу актуальных теоретических проблем современной лингвистики. Что касается прикладной области языкознания, то здесь квантитативная лингвистика представлена определенными фрагментами данной языковой модели, широко используемыми для мониторинга функционирования языка, атрибуции текста, дешифровки кодированного текста и много другого.
В силу всего вышесказанного, статистическая лингвистика как прикладное направление науки о языке ориентирована на создание модели рассматриваемой предметной области, обладающей только теми свойствами, которые необходимы для решения конкретной практической лингвистической задачи. Говоря другими словами, в то время как теоретические исследования имеют своей целью дать полное и подробное описание проблемной области со всеми ее особенностями, прикладная наука стремится найти решения для конкретных задач.
Следует отметить, что прикладные модели языка, в отличие от теоретических, часто ориентированы на подъязыки, а не на весь язык в целом. Более того они требуют большей степени формализации, безусловно, «огрубляют» представления о моделируемом объекте и не накладывают жестких ограничений на инструментарий, используемый при моделировании.
Применение статистических методов в языкознании
Использование подсчетов и измерений в лингвистике при изучении языка и речи опирается главным образом на математическую статистику. Именно по этой причине подобные методы и носят название статистических методов. Как и все математические методы, они обладают свойством общности и универсальности, поэтому могут быть применимы к объектам различной природы. В лингвистике количественные методы применяются для анализа единиц языка любого уровня. Например, при решении прикладных задач фонетики ученые опираются на тот же математический аппарат, что и при изучении физики.
В то же время при использовании статистических методов в языкознании возникают специфические аспекты, связанные с противопоставлением таких понятий, как язык и речь. Основным объектом применения количественных методов является речь, а точнее текст. Именно методы математической статистики дают возможностью вычислить значения определенных показателей, которые дают информацию о самом тексте. Ярким примером является статистическая стилистика, которая основана на том факте, что различия между стилями и жанрами языка носят статистический характер. Также применение количественных методов дает возможность отражать тематическую отнесенность текстов языка через лексику, проводить описание и классификацию текстов (например, при атрибуции текстов, в частности при установлении авторства анонимных текстов) на основе подсчета стилистических особенностей изучаемых произведений.
2. Математический аппарат для исследования текстов на естественном языке
2.1 Частотный анализ текстов на естественном языке
Современные статистические методы, широко применяемые при решении различных проблем и задач компьютерной лингвистики, основываются главным образом на обработке информационных ресурсов, представленных в виде корпусов текстов. Под корпусами текстов понимают набор (совокупность, коллекцию) текстов (документов). Именно они являются основным источником создания специальных словарей, а также предоставляют возможность для создания и дальнейшего усовершенствования инструментария автоматического анализа различных текстов.
Одним из наиболее мощных инструментов анализа естественных языков, в основе которого лежат методы математической статистики, является составление частотных словарей. Частотный словарь - разновидность словаря (как правило, одноязычного), в котором лексические единицы характеризуются с точки зрения частоты их употребления в коллекции (совокупности) текстов, которые могут представлять или язык в целом, или определенный функциональный стиль речи, или творчество определенного автора. В зависимости оттого, какие лексические единицы используются, различают частотные словари слов, словоформ, основ слов, словосочетаний и т.п.
Применение статистических методов в лингвистике требует использовать такое понятие, как словоупотребление. Под словоупотреблением понимается любой «графически подозрительный» на слово набор букв между разделителями (пробелами, знаками препинания). Естественно, одно слово (в разных формах) может использоваться в тексте несколько раз. При этом каждый раз это будет рассматриваться как новое словоупотребление. По этой причине количество словоупотреблений в тексте - это количество встреченных наборов символов, которые понимаются как слова при просмотре текста.
Принято различать абсолютную и относительную характеристики употребительности лексических единиц. Частота появления данной лексической единицы в коллекции исследуемых тексов называется абсолютной характеристикой. Что качается относительной характеристики, то для ее вычисления необходимо разделить частоту употребления данной лексической единица на общее количество слов в рассматриваемом тексте (корпусе текстов).
Пусть частотный словарь содержит i-тую словоформу и соответствующую ей частоту , тогда
(1)
где - общее количество слов или словоформ, встреченных в исследуемом тексте, либо в совокупности текстов, либо во всех текстах на данном языке, - данная словоформа, - количество вхождений данной лексической единицы во множество всех встреченных слов или словоформ.
Важным для составления частотных словарей является использование такого понятия, как ранг. Рангом слова называют порядковый номер этого слова в частотном словаре, в котором все лексические единицы упорядочены по частоте. Как правило, слова в частотном словаре располагаются по уменьшению частоты их употребления. Таким образом, чаще всего под рангом слова имеют в виду номер этого слова в словаре, упорядоченном по уменьшению частоты слов.
Получаем, что для описания частотных словарей языка мы имеем такие понятия, как:
· словоупотребление;
· частота употребления слов - количество конкретных словоупотреблений в совокупности текстов, деленное на общее количество словоупотреблений;
· частотный словарь, составленный и словоформ с частотами их употреблений;
· ранг слова (если словоформы в частотном словаре упорядочены по уменьшению частоты).
В большинстве частотных словарей представлены значения как абсолютных, так и относительных характеристик употребительности лексических единиц. В роли относительной характеристики может выступать либо ранг слова, либо какой-то другой признак, по которому ранг может быть вычислен с определенной точностью.
Обычно частотные словари строятся не для одного текста, а для корпусов текстов. То есть, берется набор текстов, например, из определенной предметной области или представительный для языка в целом, для конкретного функционального стиля речи, для творчества конкретного автора, и из него извлекаются словоформы, части речи, словосочетания или основы слов.
Следует отметить, что при составлении частотных словарей могут возникнуть следующие вопросы и сложности:
· будут ли идентичными результаты, полученные на разных корпусах текстов;
· всплеск частоты отдельных слов в зависимости от смысловой направленности текстов;
· нерациональное ранжирование менее частотных слов (сложно определить их позиции в частотном словаре).
Все эти проблемы можно объяснить тем, что употребление слов языка, со статистической точки зрения, представляет собой большое количество редких событий. Другими словами, лишь небольшое число слов языка используется очень часто, в то время как подавляющее большинство лексических единиц употребляется крайне редко.
Несмотря на определенные сложности, возникающие при составлении списков слов по частоте их употребления, подобного рода словари являются полезным инструментом для сравнения двух корпусов текстов, позволяя определить слова наиболее характерные для каждого из них. Кроме этого, они используются для разработки высокоэффективных методик обучения языку, а также для решения многих задач в различных областях (информатика, теория связи).
Как уже было отмечено, частотные словари применяются для анализа и сравнения двух корпусов текстов. По причине того, что коллекции исследуемых текстов могут иметь разный объём, учеными-лингвистами была введена такая оценка частоты, как частота на миллион словоформ (чмс), или instances per million words (ipm). На практике для определения списка ключевых слов, характеризующих исследуемые корпуса текстов, применяются разнообразные статистические меры.
Значительная часть частотных словарей, создаваемых в современное время, помимо частотных характеристик словоупотреблений содержат информацию о частоте встречаемости отдельных букв или буквосочетаний в определенных текстах на одном из естественных языков.
Кроме частотных словарей, составленных для общих корпусов текстов на естественных языках, особый интерес для решения многих практических задач представляют списки слов по частоте их употребления, составленные ограниченных множеств текстов: корпусов авторских текстов, текстов определенной тематики. Например, частотные словари используются при сравнении политических текстов, что позволяет делать выводы о направленности действий не только отдельных политиков и политических партий, но и целых государств.
Самый первый частотный словарь русского языка был опубликован в 1953 году и состоял из 1700 слов [6]. В научной школе в Таллине в 1963 году был издан первый в Советском Союзе частотный словарь русского языка [5], включающий в себя 2500 слов. Такое небольшое количество слов (1700 и 2500) в словарях объясняется тем, что все вычисления проводились лингвистами вручную. Использование ЭВМ для создания списка слов по частоте их употребления для русского языка произошло в 1977 году. Так был составлен частотный словарь Л.Н. Засориной, содержащий 40000 слов [3]. Однако при создании этого словаря обрабатывались в основном тексты, связанные с атрибутикой советской власти, и по этой причине в него входило очень мало слов, используемых в настоящее время. Так начинает свое формирование научное направление, занимающееся составлением списков слов по частоте их употребления с использованием компьютерных технологий.
Таким образом, частотный словарь представляет собой список слов, в котором все лексические единицы расположены в порядке, соответствующем уменьшению частоты их употребления. В таком словаре порядковый номер каждого слова представляет собой его ранг. Ранг может выступать в качестве относительной характеристики употребительности лексических единиц, а абсолютной характеристикой служит частота появления данного словоупотребления или слова в исследуемой совокупности текстов. Обычно в частотных словарях представлены данные как об абсолютных, так и об относительных характеристиках употребительности слов. В зависимости от разновидности лексических единиц различают частотные словари слов, словоформ, основ слов, словосочетаний и т.п.
Несмотря на то, что первый частотный словарь был составлен около шестидесяти лет назад, в настоящее время подобного рода словари является очень эффективным и широко используемым на практике инструментом для решения многих проблем искусственного интеллекта. Главной целью составления списков слов по частоте является анализ корпусов текстов, определение наиболее характерных для них слов и последующий сравнительный анализ.
2.2 Частотный анализ в литературоведческих исследованиях
Первым, кто применил математические методы для анализа литературных текстов, был один из известнейших математиков Андрей Андреевич Марков (старший). В 1913 году вышла в свет его работа, посвященная результатам применения статистических методов для анализа произведения А.С. Пушкина «Евгений Онегин». Исследование поэтического текста романа проводилось ученым с целью проанализировать то, как распределены гласные и согласные буквы среди первых 20000 букв. Позже подобного рода исследования были проведены на текстах других литературных произведений. Метод цепей А.А. Маркова нашел широкое применение в современных исследованиях текстов на естественном языке. Например, эта методика активно используется для анализа литературных произведений с целью определения авторства текста.
Особого внимания заслуживает применение математических методов для анализа стихотворной речи. Значительный вклад в использование методов теории вероятностей и математической статистики для анализа поэтических текстов внес великий ученый Андрей Николаевич Колмогоров. А.Н. Колмогоров занимался математическим моделированием поэтических текстов русских авторов XX века. Ученый исследовал ритмику произведений известных поэтов таких, как А.С. Пушкин, М.И. Цветаева, А.А. Ахматова, Б.Л. Пастернак и многие другие.
В основе исследований, проводимых А.Н. Колмогоровым, лежало утверждение, которое состояло в том, что в поэтических текстах имеют место определенные количественные закономерности, и их можно рассматривать без привязки к содержанию произведения. По мнению ученого, главное отличие поэтических текстов от других литературных текстов заключается в том, что каждый стих характеризуется так называемой «внутренней мерой», а именно поэтическим метром. Поэтическим метром А.Н. Колмогоров называл закономерность ритма, случаи нарушения которого можно четко зафиксировать. Таким образом, для исследования и описания поэтических текстов были введены методы, использующие аппарат математической статистики.
2.3 Частотные словари поэтов и ранговый корреляционный анализ поэтических текстов
Частотные словари представляют собой очень эффективный инструмент для проведения литературоведческих исследований. Так, например, применение частотного и рангового корреляционного анализа позволило В.С. Баевскому проанализировать литературную ситуацию, наблюдаемую в различные периоды в поэтическом мире, и помогло найти ответы на многие вопросы филологов и литературоведов. Например, В.С. Баевский показал, как можно проводить сравнение «художественных миров» и творчества поэтов, а также определять «связь» между литературной деятельностью писателей.
Ученым было предложено рассматривать частотный словарь, составленный на основании какого-то конкретного произведения или же совокупности литературных произведений, написанных определенным автором, в качестве математической модели литературного текста или поэтического мира автора и произведения. Сравнение частотных словарей заключается в сравнении наиболее частотных в них слов. «Расстояние» между списками слов по частоте их употребления можно рассматривать в качестве характеристики «близости» «художественных миров» поэтов или тематики поэтических произведений.
Учеными был проведен анализ произведений знаменитых русских поэтов - Пушкина, Лермонтова, Тютчева и т.д. - и были составлены соответствующие им частотные словари. Результаты исследований показали, что для полноценного сопоставления частотных словарей достаточно рассмотреть30 наиболее частотных слов.
Построение математической модели «связи» между частотными словарями, характеризующей «близость» словарей, происходит на основании рангового корреляционного анализа. С этой целью каждому слову в отсортированном по уменьшению частоты словаре ставится в соответствие его порядковый номер. Если за di обозначить разницу рангов i-того слова словаря размером N (i=1,…, N), то можно вычислить коэффициент ранговой корреляции Спирмена по формуле:
(2)
Его значение позволяет определить «связь» между частотными словарями и, как следствие, «близость» творчества поэтов.
Как известно, коэффициент ранговой корреляции Спирмена принимает значения от -1 до 1. Рассмотрим следующие возможные варианты:
· R=1 указывает на наличие прямой зависимости, то есть, на полное совпадение двух словарей;
· R=0 говорит об отсутствии зависимости между рассматриваемыми словарями;
· R= -1 указывает на наличие обратной зависимости, характеризующей ситуацию в которой слова, наиболее частотные в одном словаре, наименее частотны в другом;
· 0<R<1 указывает на существование прямой с некоторой вероятностью зависимости между словарями, свидетельствующей об их близости;
· -1<R<0 указывает на существование обратной с некоторой вероятностью зависимости между словарями, свидетельствующей о противостоянии двух частотных словарей.
Вывод о «близости» словарей делается на основании принадлежности значения коэффициента корреляции допустимому интервалу. Следует отметить, что рассмотренный выше подход к исследованию и сравнению поэтических текстов нашел широкое применение в литературоведении.
3. Программное обеспечение для исследования частотных характеристик и рангового корреляционного анализа текстов
Для анализа и сопоставления литературных текстов были использованы базовые варианты программ под названием «FrequencyDictionary» и «Spearman».
3.1 Составление частотных словарей
Для проведения частотного анализа литературных текстов и составления частотных словарей поэтов была использована программа «FrequencyDictionary», которая включает в себя исполняемый файл «01_FrequencyDictionary.exe», а также вспомогательные файлы: «ru_dict.bin» - словарь русского языка и «config.cfg» - конфигурационный файл модуля построения словарей.
Для построения частотного словаря исследуемый текст (исходные данные) должен находиться в кодировке UTF-8 и иметь расширение «.txt». Его название будет соответствовать названию будущего частотного словаря.
В конфигурационном файле «config.cfg» содержится описание параметров необходимых для корректной работы программы «01_FrequencyDictionary.exe». Другими словами, файл содержит список частей речи, наборов частей речи, а также N-грамм, настраивая который можно строить частотные словари, состоящие как из определенных частей речи, так и из различных их комбинаций. Кроме того, в данном варианте программы возможно построение частотных словарей для именных групп, глагольных групп и N-грамм, где N=1, …, 8. Для того, чтобы построить частотный словарь с необходимым набором признаков, то есть словарь, содержащий только слова определенных частей речи, необходимо при настройке параметров конфигурационного файла поставит значение 1 напротив тех типов признаков, которые будут включены, и соответственно 0 - напротив тех типов признаков, которые не должны быть включены в частотный словарь.
В настоящее время программа «FrequencyDictionary» построения частотных словарей способна обрабатывать языки, основанные на кириллице. При необходимости ее также можно модифицировать для работы с языками, основанными на латинице.
В результате работы программы создаются частотные словари в формате «dictionary_<имя словаря>.txt». Количество созданных словарей соответствует количеству входных файлов. На выходе программы составленный частотный словарь содержит только те признаки, которые были отмечены в конфигурационном файле.
Отдельно следует отметить, что с помощью программы «CreateBarChart» в виде исполняемого файла «CreateBarChart.exe» построенные частотные словари возможно представить в виде столбчатой диаграммы. Говоря точнее, по каждому из словарей автоматически строится гистограмма, отражающая частоту встречаемости каждой словоформы из словаря в тексте. Это позволяет визуализировать словари для удобства их дальнейшего анализа. На гистограмме отображаются первые 30 наиболее частотных слов по той причине, что, согласно мнению многих ученых-лингвистов, именно такого количества слов достаточно для проведения полноценного анализа исследуемого текста. В результате выполнения программы «CreateBarChart» создаются файлы с расширением «.xls», в которых будут представлены графики соответствующих частотных словарей.
3.2 Вычисление коэффициента ранговой корреляции Спирмена
Между частотными словарями, построенными с помощью программы «FrequencyDictionary», необходимо посчитать значение коэффициента ранговой корреляции Спирмена. Для его вычисления использовалась программа «Spearman».
Входными параметрами для данной программы являются текстовые файлы «.txt» в кодировке UTF-8, содержащие частотные словари, полученные с помощью программы «01_FrequencyDictionary.exe».
В результате работы программы в той же директории, где расположен исполняемый файл «02_СountSpearman.exe»., создается текстовый файл «metrices.txt». Структура файла следующая: в каждой строке результирующего файла содержатся текст
«spearman (<название частотного словаря_1>, <название частотного словаря_2>) = <значение коэффициента ранговой корреляции Спирмена>»
При подсчете коэффициента ранговой корреляции может получиться значение NaN. Это означает, что частотный словарь, составленный по данному тексту, содержит менее пяти элементов из проранжированного списка слов. Другими словами, мощность их пересечения составляет менее пяти элементов.
Общая схема работы программы «02_СountSpearman.exe» такова:
1. считывание входных данных - частотных словарей, созданных по текстам с помощью «01_FrequencyDictionary.exe»;
2. вычисление коэффициента ранговой корреляции Спирмена между частотными словарями, построенными на основе анализируемых текстов, с использованием формулы (2).
3.3 Тестирование и модификация программного обеспечения
В ходе данного исследования обе программы - «FrequencyDictionary» и «Spearman» - были протестированы на различных корпусах поэтических текстов, и в ходе чего были обнаружены некоторые ошибки и неточности в реализации.
Так, исходный вариант программы «FrequencyDictionary», предоставленный для проведения анализа частотных характеристик литературных текстов, вычислял частоту i-того слова по следующей формуле:
(3)
где - общее количество тех слов или словоформ в исследуемом тексте, которые обладают признаком, указанном в конфигурационном файле, (то есть, являются определенной частью речи), - данное слово, - количество вхождений данной лексической единицы, являющейся указанной частью речи, во множество всех встреченных слов или словоформ.
Однако в соответствии с правилами составления частотных словарей и вычисления частоты употребления слова в знаменателе данной формулы должно находиться общее количество всех слов в тексте в не зависимости от того, к какой части речи они относятся.
При тестировании программы «FrequencyDictionary» данная ошибка была замечена. Впоследствии в программу были внесены соответствующие коррективы, что позволило безошибочно вычислять частоту слов для последующего составления частотных словарей.
Кроме этого, после того, как были составлены частотные словари для различных корпусов поэтических текстов, практически в каждом из них был обнаружен ряд слов, не существующих в русском языке, такие, как «вс», «акваль», «химизм», «многополный» и т.п. Это было связано с тем, что морфологический словарь русского языка, представленный во вспомогательном файле «ru_dict.bin», был неполон, а также содержал некоторые неточности. Также в ходе работы данной программы некоторые слова записывались в один и тот же частотный словарь несколько раз, причем с различными частотами. Подобного рода ошибки в работе программы были исправлены, что позволило провести точный ранговый корреляционный анализ частотных словарей поэтов.
После выявления всех этих ошибок разработчикам были предложены варианты для дальнейших модификаций обеих программ. Таким образом, после того, как в данные программы были внесены соответствующие изменения, стало возможным их применения для анализа и сопоставления литературных текстов поэтов.
Список использованной литературы
1. Баевский В.С. Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы - М.: Языки славянской культуры, 2001. - 336 с.
2. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. - М.: Высшая школа, 1977. - 383 с.
3. Частотный словарь русского языка / Под редакцией Л.Н. Засориной. - М.: Русский язык, 1977. - 936 с.
4. Чатуев М.Б., Чеповский А.М. Частотные методы в компьютерной лингвистике. - М.: МГУП, 2011. - 88 с.
5. Штейнфельд А.Э.А. Частотный словарь современного русского литературного языка. Таллин, 1963-2500 слов. - 316 с.
6. Jоsselson Н.Н. The Russian Word Count and Frequency Analysis of Grammatical Categories of Standard Literary Russian. Detroit, Wayne University Press, 1953
Размещено на Allbest.ru
...Подобные документы
Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.
реферат [19,0 K], добавлен 02.11.2008Корпус текстов школьников в контексте корпусной лингвистики, его содержание и пополнение. Пунктуационная разметка текстов, классификация ошибок. Использование языка разметки TEI для кодировки пунктуации. Обработка корпуса с помощью программы Интерробанг.
дипломная работа [1,9 M], добавлен 08.11.2015Кибернетика как научное направление, предмет методы ее исследования, история и основные этапы развития. Главные методы кибернетики и практическое значение, особенности применения методов к другим системам. Анализ достижений современной кибернетики.
презентация [1,2 M], добавлен 02.12.2010Место и роль компьютерной лингвистики в лингвистических исследованиях. Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике. Современные интерфейсы компьютерной лингвистики. Перспективная задача компьютерной лингвистики.
курсовая работа [28,5 K], добавлен 22.11.2009Диалоговые системы как составляющая компьютерной лингвистики. Их характеристики и типы. Использование сценариев при их создании. Структура ДС с интеллектуальным интерфейсом на естественном языке. Способ и система для предоставления речевого интерфейса.
курсовая работа [195,8 K], добавлен 23.01.2014Функциональные возможности, преимущества и недостатки существующих лингвистических процессоров. Проектирование интерфейса взаимодействия облачного хранилища с лингвистическим процессором и компонентов доступа к сервисам. Программный продукт IKVM.NET.
дипломная работа [2,0 M], добавлен 21.09.2016Подробное рассмотрение программного обеспечения для моделирования и расчетов в области химии, редактирования текстов. Изучение понятий: "программное обеспечение"; химическое ПО; химические редакторы; системное ПО; прикладное ПО; инструментальное ПО.
курсовая работа [4,1 M], добавлен 29.05.2014Особенности применения автономных необитаемых подводных аппаратов (АНПА) в задачах обследования акватории, их виды и основные задачи. Система автоматизации подготовки программы-задания для АНПА. Программное обеспечение для формирования траектории.
дипломная работа [3,3 M], добавлен 19.12.2011Разработка алгоритма автоматического создания отзывов на русском языке с использованием лексико-синтаксических шаблонов. Процесс создания текста при помощи цепей Маркова. Принцип работы Томита-парсера. Применение автоматических генераторов текстов.
курсовая работа [150,6 K], добавлен 27.09.2016Техника безопасности, охрана труда при работе с компьютерной техникой. Структура и краткая характеристика компьютерной техники. Программное обеспечение компьютеров. Индивидуальное задание на условном рабочем месте. Настройка агентов и X-Centric Manager.
отчет по практике [3,7 M], добавлен 19.07.2012Структура и система управления, функциональные подразделения и службы предприятия, положения об их деятельности. Техническое оснащение предприятия компьютерной техникой. Программное обеспечение компьютерной техники предприятия. Защита от ошибок и вирусов.
отчет по практике [128,6 K], добавлен 11.06.2013Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.
дипломная работа [3,0 M], добавлен 06.03.2012Сферы применения машинной графики. Виды компьютерной графики. Цветовое разрешение и цветовые модели. Программное обеспечение для создания, просмотра и обработки графической информации. Графические возможности текстовых процессоров, графические редакторы.
контрольная работа [21,9 K], добавлен 07.06.2010Понятие семантики; обзор и анализ существующих средств семантического разбора естественно-языковых текстов. Разработка алгоритма работы системы на основе семантического анализа, его реализация на языке программирования; проектирование интерфейса системы.
дипломная работа [1,7 M], добавлен 18.03.2012Характеристика программного обеспечения персонального компьютера, которое делиться на три класса: системное, прикладное ПО, инструментарий программирования. Особенности работы компьютерной сети - системы связи компьютеров или компьютерного оборудования.
контрольная работа [22,9 K], добавлен 10.06.2010Проектирование системы основного технологического оборудования гибких производственных систем, ее структура и взаимосвязь компонентов. Отличительные особенности автоматизированных и неавтоматизированных методов. Используемое программное обеспечение.
курсовая работа [1,4 M], добавлен 31.12.2015Система методов и способов сбора, накопления, хранения, поиска и обработки информации на основе применения средств вычислительной техники. Телепроекты, телеконференции, дистанционное обучение. Системы компьютерной графики (компьютерных презентаций).
реферат [37,7 K], добавлен 26.01.2015Сущность понятия "программное обеспечение". Типы прикладных программ. Современные системы программирования для персональных компьютеров. Уровни программного обеспечения: базовый, системный, служебный. Классификация служебных программных средств.
реферат [20,2 K], добавлен 01.04.2010Выбор сетевых компонентов. Основные эксплуатационные характеристики кабелей на витой паре. Рекомендации по применению кабелей. Используемое сетевое и пользовательское программное обеспечение. Разработка схемы ЛВС в MS Visio. Расчет стоимости прокладки.
курсовая работа [298,0 K], добавлен 02.09.2010Понятие алгебраической кратности собственного значения. Вычислительные методы собственных значений и собственных векторов. Программное обеспечение некоторых алгоритмов их нахождения. Программы на языке С++. Разработка М-файлов для системы MatLab.
реферат [286,5 K], добавлен 23.04.2012