Квантитативная лингвистика
Значение качественных и количественных данных для изучения языка. Понятие квантитативной лингвистики и ее отличие от математической лингвистики. Дешифровка кодированного текста. Компьютерное моделирования речи. Авторизация текста: пример экспертизы.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 13.12.2015 |
Размер файла | 67,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Введение
Квантитативная лингвистика (КЛ) является одним из направлений прикладной лингвистики (ПЛ), «области языкознания изучающей методы решения практических задач, связанных с оптимизацией использования языка». Как видно из определения, прикладная лингвистика находится под влиянием общей теории языка, но этот процесс обоюдный: исследования, проводимые в русле прикладной лингвистики, сами воздействую на развитие общей лингвистики, устанавливают новые критерии проведения лингвистических изысканий. Так, например, применение статистических и/или количественных методик на данный момент является обязательным требованием любого лингвистического проекта.
Как научная дисциплина прикладная лингвистика появилась во второй половине двадцатого века, когда ученые пришли к выводу о том, что решение многих задач не может быть чисто лингвистическим. На Западе термин ПЛ (Applied Linguistics) применяется, прежде всего, по отношению к теории и практике преподавания иностранных языков. В России же данный термин получил распространение в связи с появлением первых компьютеров, первых систем автоматической обработки текстов, машинного перевода, автоматического реферирования, аннотирования и т.д. Именно поэтому в русскоязычной литературе вплоть до настоящего момента применяются термины «компьютерная лингвистика», «инженерная лингвистика», что не вполне корректно, поскольку каждая из вышеперечисленных дисциплин имеет свои собственные цели, задачи, методы в рамках прикладной лингвистики.
В КЛ под законом понимается класс гипотез, выведенных из теоретических допущений, математически сформулированных, взаимосвязанных с другими законами в этой области и в достаточном объёме и успешно проверенных на эмпирических данных, то есть таких, которые нельзя было опровергнуть несмотря на многочисленные попытки.
Kohler пишет о законах КЛ: «Более того, можно показать, что эти свойства лингвистических элементов и отношений между ними подчиняются универсальным законам, которые могут быть сформулированы строго математически также как и законы естественных наук. Нужно иметь в виду в данном контексте, что эти законы стохастической природы; они не соблюдаются в каждом отдельном случае (в этом не было бы необходимости и возможности); они скорее определяют вероятности событий или количественные отношения изучаемых явлений.
Значение качественных и количественных данных для изучения языка
дешифровка текст компьютерный авторизация
Язык представляет собой, как принято говорить в современном языкознании, некоторое системно-структурное образование. Отдельные подсистемы языка называют уровнями, которые представлены соответствующими единицами- фонемами, морфемами лексемами, синтагмами (предложениями).
Поскольку единицы каждого уровня языка находятся в иерархи- ческой зависимости от единиц вышестоящего уровня, то понятно, что, например, число производных слов в том или ИНОМ языке №ДСТ зависеть 01 числа аффиксов (префиксов и суффиксов) с деривационным значением, а число морфем - от числа фонем, В то же время число фонем в различных языках не совпадает Эти простые примеры показывают, что язык характеризуется определенными качественными и количественными признаками.
Качественный анализ языка представляет собой не что иное, как его категоризацию, т. е. выделение в языке определенных классов явлении. объединенных определенными качественными признаками. Этими явлениями (категориями) могут быть, как показано выше, единицы языка (фонемы, морфемы, лексемы), грамматические категории, грамматические способы (аффиксация, словосложение, редупликация и т. и ). типы слов (знаменательные, служенные; вульгаризмы, диалектизмы, архаизмы, неологизмы), типы предложений (сложные, простые: сочинительные, подчинительные и т.д.). Однако любая категоризация, т с, качественный анализ языка, неразрывно связана с квантификацией языка, т. с. его количественным анализом. Анализируя категории языка, мы говорим, что в немецком языке, в отличие от русского, имеется не 6, а лишь 4 падежные формы: в русском языке, в отличие от украинского, не 7, а 6 падежей, а в латинском - 8.
Таким образом, нет никакого сомнения в том, что язык наряду с качественными признаками обладает и количественными. Еще в большей степени обладает количественными признаками речь и ее письменное воплощение (манифестация) - текст.
В современной науке различают так называемые "хорошо организованные системы и "плохо организованные (диффузные) системы. К хорошо организованным системам относится, например, движение планет, Благодаря четкой упорядоченности этой системы становится возможным точно вычислить и заранее предсказать время солнечного затмения и т. п. К плохо организованным системам относится интеллектуальная деятельность человека, а вместе с ней - и ' языковое поведение “, т. е. использование языка. 'Одно из самых примечательных явлений современной науки, - полагает В. В Налимов - это стремление перейти от изучения хорошо организованных систем к плохо организованным системам. Иначе говоря, наблюдается необходимость перейти к изучению задач с плохой структурой.
Считается, что наиболее эффективными методами изучения плохо организованных систем являются методы математической статистики.
Таким образом, язык может быть исследован с помощью качественных и количественных методов. В зависимости от целей и задач, которые ставит перед собой лингвист при изучении явлений языка и речи, в осуществляемом им исследовании могут применяться либо качественные, либо количественные методы анализа, либо и те и другие в равной степени, либо преимущественно первые или вторые. Могут возникнуть также задачи (особенно при анализе текста), которые не могут быть выполнены иначе, как с помощью количественных методов.
Понятие квантитативной лингвистики и ее отличие от математической лингвистики
Область знаний, которая занимается количественным анализом языка и речи, называют в современной науке по-разному. Чаще всего употребляются четыре термина: математическая лингвистика, квантитативная лингвистики, статистика речи, лингвостатистика. Ясно, что при веем сходстве этих наименовании между ними существуют определенные различия.
Как показано в самом математическом аппарате, точнее, в совокупности математических методов можно условно различать количественные и не количественные методы. С помощью неколичественных методов (теория множеств, теория алгоритмов, математическая логика) целесообразно изучать, прежде всего. систему языка (langue). Этот раздел науки получил название "комбинаторная лингвистика. С помощью количественных методов (прежде всего, теория вероятностен и математическая статистика) целесообразно исследовать речь (текст), т. е. parole. Это второе направление и называют квантитативной лингвистикой.
Таким образом, можно было бы полагать, что математическая лингвистика является более широким понятием по сравнению с квантитативной лингвистикой, коль скоро математическая лингвистика включает и комбинаторную, и квантитативную лингвистику, а квантитативная лингвистика является более широким понятием по сравнению со статистикой и речи пли лингвистической статистикой. На практике, однако, понятия математическая лингвистика и квантитативная лингвистика совпадают, которая называется математическая лингвистика, но в котором рассматриваются проблемы квантитативной лингвистики (имеются и другие примеры синонимичного употребления терминов математическая лингвистика и квантитативная лингвистика). Если, таким образом, рассматривать лингвостатистику как одну из составных частей квантитативной лингвистики, становится очевидным, что между лингвостатистикой и квантитативной (математической) лингвистикой существует заметная разница, т. к. число объектов и набор методов, с помощью которых эти объекты изучаются в лингвостатистике, значительно уже, чем в математической лингвистике в целом.
Математическая лингвистика, как полагают специалисты это не лингвистическая, а математическая дисциплина.
Следует также заметить, что в западноевропейской литературе термином «квантитативная лингвистика» обозначается та область науки. которую в отечественном языкознании называют «лингвистическая статистика» или «лингвостатистика», «статистика речи», «статистика текста».
Таким образом, главный водораздел проходит, по-видимому, между математической лингвистикой как одной отраслей математики и квантитативно» лингвистикой как совокупностью методов и приемов, с помощью которых можно осуществить количественный анализ свойств языка и речи. Именно так следует, как нам представляется, понимать термин квантитативная лингвистка.
Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения
Название «квантитативная лингвистика» достаточно условно, хотя и довольно широко используется в современной научной литературе.
Оно характеризует междисциплинарное направление в прикладных исследованиях, в котором в качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа.
Иногда квантитативная (или количественная) лингвистика противопоставляется комбинаторной лингвистике.
В последней доминирующую роль занимает «неколичественный» математический аппарат -- теория множеств, математическая логика, теория алгоритмов и т.д.
Применение количественных методов при описании функционирования языка мало чем отличается от использования аналогичного инструментария в естественных и гуманитарных науках. Привлечение методов измерения и подсчета языковых реализаций позволяет, однако, существенно модифицировать представление о языковой системе и возможностях ее функционирования.
В этом отношении квантитативная лингвистика оказывается важнейшим фактором, влияющим на лингвистическую теорию. Например, в сфере грамматики теоретическая лингвистика, как правило, ограничивается констатацией существования в русском языке системы падежей. Со структурной точки зрения этого, быть может, и достаточно. Между тем за рамками обсуждения остается весьма существенная информация о том, как часто используются различные падежи, какова динамка использования различных падежей с течением времени. Исследование такого рода позволило бы выявить тенденции развития падежной системы и на основе этого даже сформулировать гипотезы о будущем состоянии грамматической системы русского языка.
Другой пример. С системной точки зрения в русском, английском и латинском языках имеется форма именительного падежа единственного числа личных местоимений. Однако в английском языке при глаголе эта форма местоимения практически всегда необходима, в русском -- местоимение в этих случаях обычно представлено, а в латыни -- как правило, отсутствует. Отсутствие достоверных количественных данных об этих языковых явлениях делает структурное описание явно недостаточным. Разумеется, имеются и смешанные случаи.
Близкие проблемы возникают и в сфере лексики. Обычные толковые словари не помещают в составе словарной статьи информации о частоте использования той или иной лексемы. Это связано с очень большим объемом работы, который надо проделать, чтобы для каждого слова указать хоть какие-то рамки частотности. Для пользователя словаря такая информация может оказаться очень важной, часто решающей для принятия решения об использовании слова. Ср., например, высокочастотные в публицистике идиомы с головы до ног/с ног до головы (48 вхождений на 21 млн словоупотреблений), целиком и полностью (49 вхождений на 21 млн), на все сто (42 вхождения на 21 млн), ровным счетом, ни больше ни меньше (71 вхождение на 21 млн), ни много, ни мало (133 вхождения на 21 млн) и весьма редкие для газетно-журнального стиля выражения море разливанное (9 вхождений на 21 млн), (и) стар и млад (8 вхождений на 21 млн), разные разности (1 вхождение на 21 млн).
С теоретической точки зрения использование статистических методов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, то есть создать структурно-вероятностную модель, обладающую значительным объяснительным потенциалом. Эту сторону использования количественных методов следует считать приложением статистики в языкознании. К моделям такого рода относится, например, «модель жизненного цикла слова», предложенная А. А. Поликарповым. Проведенный им квантитативный анализ показал, что в достаточно значительной временной перспективе имеется явная тенденция к увеличению степени абстрактности значений у многозначного слова -- чем позже возникает значение, тем оно более абстрактно. Разработанная количественная модель позволяет делать интересные предположение об относительном «возрасте» различных частей речи, тенденций развития лексической системы языка и т.д.
Из приведенного примера видно, что задача построения структурно-вероятностной модели функционирования языка относится к теоретическим проблемам лингвистики и входит в компетенцию теории языка. В прикладной же области квантитативная лингвистика представлена прежде всего использованием фрагментов этой модели.
Основные области приложения структурно-вероятностной модели языка
Лингвистический мониторинг функционирования языка. Задача лингвистического мониторинга заключается в выявлении общих особенностей функционирования языковой системы в конкретном типе дискурса (научном, политическом дискурсе, текстах средств массовой информации и т.д.). В качестве предмета лингвистического мониторинга могут выступать такие феномены естественного языка, как типы языковых ошибок, сфера иностранных заимствований, новые слова и значения, новые (креативные, творческие -- не конвенциональные) метафоры, тематическое распределение лексики (например, лексика временных и пространственных отношений, лексика выражения чувств и эмоций, спортивная лексика и т.д.), особенности использования в текстах тех или иных грамматических форм, синтаксических конструкций. Технология лингвистического мониторинга основывается на двух важнейших предпосылках: во-первых, на регулярности и периодичности анализируемых данных, и, во-вторых -- на достаточно большом объеме привлекаемого материала, на репрезентативности выборки данных. В силу этого лингвистический мониторинг невозможен без соответствующего компьютерного обеспечения. Использование компьютерной технологии позволяет давать оценку исследуемому феномену, выявляя его распределение по времени, по источникам, авторам и т.д.
Информация о статистических закономерностях функционирования языковой системы лежит в основе некоторых методик анализа данных, разрабатываемых в политической лингвистике. К ним относится, в частности, методика контент-анализа, используемая для выявления структуры и состояния общественного сознания. При помощи контент-анализа появляется возможность по частоте употребления лексем реконструировать, например, ценностные ориентации общества, выявлять актуальные темы публичной политики, оценивать динамику изменения тематики политических дискуссий и т.д.
Компьютерное моделирования языка и речи. Другая важная область прикладного использования знаний о частоте использования тех или иных языковых структур -- компьютерная лингвистика. Многие компьютерные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций.
Например, программы автоматической коррекции орфографии содержат словари, как правило, только наиболее частотных лексем. Редкие слова пользователь может вводить в свой индивидуальный словарь. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Абсолютная частота появления лексем (особенно терминологической лексики) используется в системах автоматического аннотирования и реферирования. Так, согласно статистико-дистрибутивному методу автоматического индексирования информативными для данного текста считаются скопления слов, расположенных достаточно близко друг от друга, частота которых превосходит некоторую пороговую величину, например, среднюю частоту слов в документе (метод ACSI-Matic).
Дешифровка кодированного текста. В процессе дешифровки также могут использоваться данные о частоте употребления графем, морфем и слов, а также их взаимном расположении. К настоящему времени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста. Близки к задачам дешифровки формальные процедуры «открытия» морфемного состава неописанного языка, предложенные З. Харрисом.
Авторизация/атрибуция текста. Проблема авторизации текста относится к числу классических проблем филологического исследования. Часто она рассматривается в рамках «количественной стилистики» -- стилеметрии. Авторизация включает как литературную, так и лингвистическую составляющую. В.В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста. К субъективным факторам он относит:
а) субъективно-коммерческие;
б) субъективно-конъюнктурные;
в) субъективно-эстетические;
г) субъективно-психологические;
д) субъективно-идеологические факторы.
Есть и объективные факторы:
а) документально-рукописные (археологические);
б) исторические (биографии, свидетельства современников);
в) историко-идеологические и сопоставительно-идеологические;
г) историко-стилистические;
д) художественно-стилистические;
е) лингвостилистические.
Однако чисто филологическое направление авторизации не позволяет построить объективные операциональные критерии анализа и атрибуции текста. К сожалению, большинство факторов, на которые обращает внимание В. В. Виноградов, плохо формализуемы. Иными словами, разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы.
Перспектива объективизации экспертного знания была обнаружена в использовании количественных, статистических методов анализа текста. Пионером в этой области стал Н. А. Морозов, перу которого принадлежит опубликованная в 1915 г. работа «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд».
Существенно, что в квантитативном анализе Морозов предлагал опираться не на тематически связанную лексику -- слова, определяемые спецификой описываемого материала, его предметной и проблемной ориентацией, -- а на служебные слова и слова тематически нейтральные. Дело в том, что именно особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.
В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основания авторизации могут быть различны, но использование количественных методов анализа оказывается неизбежным. Одно из перспективных направлений в этой области -- привлечение к авторизации текста теории распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров -- средняя длина предложения, количество вложенных синтаксических структур, количество слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты которого задаются значениями выбранных параметров. Сходство векторов определяет и сходство стилей.
Разрабатываются подходы, основанные на изучении количественных особенностей реализации синтаксических структур, а также на выявлении некоторых особенностей формальной структуры текста, связанных с выражением типов чужой и авторской речи. Соотношение чужой речи (прямой, смешанной, вложенной) с авторской также оказывается стилеобразующим фактором. Эта характеристика стиля отражена в «формально-пунктуационном» методе структуризации текста, который реализован в компьютерной системе DISSKOTE. Ниже разбирается пример авторской экспертизы текста, основанный на методике анализа квазисинонимичных лексем.
Закон Ципфа - Мандельброта и его применение
В конце 40-х годов нашего столетия Дж. Ципф, собрав огромный статистический материал, попытался показать, что распределение слов естественного языка подчиняется одному простому закону, который можно сформулировать следующим образом. Если к какому-либо достаточно большому тексту составить список всех встретившихся в нем слов, затем расположить эти слова в порядке убывания частоты их встречаемости в данном тексте и пронумеровать в порядке от 1 (порядковый номер наиболее часто встречающегося слова) до R, то для любого слова произведение его порядкового номера (ранга) / в таком списке и частоты его встречаемости в тексте будет величиной постоянной, имеющей примерно одинаковое значение для любого слова из этого списка. Аналитически закон Ципфа может быть выражен в виде:
fr = c
где f - частота встречаемости слова в тексте;
r - ранг (порядковый номер) слова в списке;
с - эмпирическая постоянная величина.
Полученная зависимость графически выражается гиперболой. Исследовав таким образом самые разнообразные тексты и языки, в том числе языки тысячелетней давности, Дж. Ципф для каждого из них построил указанные зависимости, при этом все кривые имели одинаковую форму - форму гиперболической лестницы, т.е. при замене одного текста другим общий характер распределения не изменялся.
Закон Ципфа был открыт экспериментально. Позднее Б. Мандельброт предложил его теоретическое обоснование. Он полагал, что можно сравнивать письменный язык с кодированием, причем все знаки должны иметь определенную стоимость. Исходя из требований минимальной стоимости сообщений, Б. Мандельброт математическим путем пришел к аналогичной закону Ципфа зависимости:
= c
где y - величина (близкая к единице), которая может изменяться в зависимости от свойств текста.
Дж. Ципфом и другими исследователями было установлено, что такому распределению подчиняются не только все естественные языки мира, но и другие явления социального и биологического характера: распределения ученых по числу опубликованных ими статей, городов США по численности населения, населения по размерам дохода в капиталистических странах, биологических родов по численности видов и др.
Одним из подходов к составлению тезауруса может стать использование законов Ципфа. Рассмотрим их более подробно. Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется рангом частоты. Вероятность обнаружения слова в тексте равно отношению частоты вхождения слова к числу слов в тексте. Ципф определил, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке:
С = ( f х r )/n
где f -- частота вхождения слов, r -- ранг частоты, n -- число слов.
Это значит, что график зависимости ранга от частоты представляет из себя равностороннюю гиперболу. Ципф также установил, что зависимость количества слов с данной частотой от частоты постоянна для всех текстов в пределах одного языка и также является гиперболой.
Исследование вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой, как правило, являются предлогами, частицами, местоимениями, в английском языке -- артиклями (так называемые «стоп-слова»), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Таким образом, данная особенность может помочь правильно выбрать ключевые слова для проведения поиска информации.
Процедура оптимального выбора ключевых слов, основанная на применении законов Ципфа, заключается в следующем: берут любой текст-источник, близкий к искомой теме, то есть «образец», и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, web-страница, любой другой документ. Анализ текста производится в следующем порядке:
1. стоп-слова удаляются из текста;
2. вычисляется частота вхождения каждого слова и составляется список, в котором слова расположены в порядке убывания их частоты;
3. выбирается диапазон частот, лежащий в середине списка, и из него отбираются слова, наиболее полно соответствующие смыслу текста;
4. составляется запрос к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором OR(ИЛИ)
Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов. Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов, то есть расположению их в порядке убывания частоты вхождения в документ слов запроса, применяемому в большинстве поисковых машин, на первых страницах найденных ресурсов практически все документы должны оказаться релевантными.
Дешифровка текста
Дешифровка -- исследование сообщений или текстов для обнаружения информации, закодированной или представленной способом, не известным исследователю. Открываемый в процессе дешифровки способ представления информации, содержащейся в тексте, называется ключом.
По предмету исследования различаются: естественнонаучная дешифровка, занимающаяся изучением явлений природы, рассматриваемых как язык (исследование белковых и нуклеотидных цепей, распознавание образов при отсутствии эталонов сравнения, медицинская диагностика и т. д.); техническая дешифровка, исследующая результаты человеческой деятельности, не являющиеся национальными языками общения (нотные и картографические документы неизвестного содержания, сообщения секретного характера, изучаемые с помощью так называемой военной дешифровки); лингвистическая дешифровка, имеющая целью исследование текстов на языках, смысл которых непонятен или полагается непонятным из теоретических соображений. Ключ в этом случае имеет весьма сложное строение и содержит двуязычный словарь и грамматику.
По методу исследования различаются: прикладная дешифровка, которая использует свойства отдельных языков и даже отдельных сообщений и имеет целью открытие конкретного ключа, и общая (универсальная) дешифровка, которая создаёт способы отыскания ключей для возможно более широкого класса языков и опирается на их общие (универсальные) свойства. Эти свойства определяются сочетаемостью языковых элементов.
Прикладная лингвистическая дешифровка исследует, как правило, древние тексты, для которых неизвестны письменность или язык (или то и другое). При этом, в отличие от общей дешифровки, используются не только сведения о сочетаемости элементов текста, но и «внешние» данные: наличие параллельных переводов («билингвы»), знание собственных имён и исторических событий, современных текстам, и т. д.
Важнейшие открытия в этой области -- дешифровка египетской письменности, дешифровка клинописных текстов на древнеперсидском, аккадском и шумерском языков, текстов на хетто-лувийских языках, крито-микенского письма Б и письменности майя. Основную роль в этих достижениях играли не столько уже выработанные наукой методы, сколько выдвижение удачной «решающей идеи». Так, дешифровка египетской письменности началась с сопоставлениягреческих царских имён Птолемея, Береники и Александра с участками египетских текстов, обведёнными рамкой («картушами»); дешифровка древнеперсидской клинописи началась с сопоставления титулатуры двух царей, хорошо известных по античным источникам, один из которых был сыном царя, а другой не был; дешифровка хеттского языка началась с предположения о родстве хеттского uatar, eku/aku с германским water, латинским aqua и др.
Значительный вклад в развитие дешифровки внесли советские учёные: Ю.В. Кнорозов (работы по дешифровке письменности майя, а также древнеиндийских памятников из Мохенджо-Даро и Хараппы), И. М. Дьяконов, М. В. Софронов (работы по хетто-лувийским языкам и языкам Центральной Азии) и другие.
Общая дешифровка имеет характер теоретической дисциплины. При отождествлении класса дешифруемых языков с классом всех национальных языков общая дешифровка по своему предмету сближается с общим языкознанием. Если же подразумевается класс всех встречающихся в действительности языков, то она сближается с теорией познания. Результатом исследований по общей дешифровке большей частью являются реализуемые на ЭВМ методы распознавания лингвистических явлений -- дешифровочные алгоритмы, которые представляют собой операционные определения этих явлений.
Ряд работ по прикладной дешифровке содержит и результаты общего характера, например предложенный Кнорозовым метод классификации морфем на служебные и знаменательные. Однако большинство работ по общей дешифровке связано с дескриптивной лингвистикой. З. Харрисом была выдвинута «дистрибутивная гипотеза» о возможности распознания любого лингвистического явления путём изучения сочетаемости единиц «низшего уровня». Им же предложена идея алгоритма, устанавливающего границы между морфемами в тексте без пробела между словами. Весьма важны для общей дешифровки работы К. Э. Шеннона, которым, в частности, получены формулы, определяющие наименьший объём текста, допускающего однозначную дешифровку.
Начиная с конца 50_х гг. работы в области общей дешифровки велись в основном советскими учёными. В исследованиях Н. Д. Андреева и А. Я. Шайкевича по выделению морфем использовались элементы теории вероятностей и комбинаторики. Б. В. Сухотиным предложены так называемые оптимизационные дешифровочные алгоритмы, которые строятся по следующей схеме: описывается множество возможных решений; вводится «функция качества», позволяющая оценить каждое решение некоторым числом; отыскивается решение, имеющее наивысшее «качество». В 70--80_х гг. ряд дешифровочных задач возник в связи с программой поиска внеземных цивилизаций (установление разумности сигналов, задача дешифровки изображений и т. д.).
Авторизация текста: пример экспертизы
Одна из наиболее распространенных областей использования знаний о статистических закономерностях языковых явлений -- экспертиза авторства текста. Типологически можно представить следующие базовые ситуации экспертного анализа.
A. Множественная неопределенность. Имеется множество текстов или их фрагментов. Необходимо установить, скольким авторам принадлежат тексты, и атрибутировать каждый текст конкретному автору. Это, разумеется, наиболее сложный случай анализа.
Б. Сравнение по образцу. Имеется пример текста (текстов) некоторого автора X. Необходимо установить, является ли он и автором некоторого другого текста (текстов).
B. Конкуренция образцов. Имеются образцы текстов авторов X,Y,Z... . Необходимо установить, кто из них является автором текстов Т1,Т2,... ,Тn
Приводимая ниже экспертиза вписывается в рамки случая В. Речь шла о спорном авторстве. В качестве материала для исследования были получены тексты следующих произведений: «Следователь президента»; «Смоленская площадь»; «Безумные глаза»; «В погоне за невидимым убийцей»; «Незнакомец»; «Шакалы»; «Трудное решение».
Тексты были представлены в печатной и машиночитаемой форме (файлы в формате DOS TEXT). Выборочное сравнение файлов и страниц печатных текстов произведений показало, что они полностью совпадают с точностью до разметки гарнитуры и фафических вьщелений в файлах. При компьютерной обработке символы разметки не учитывались.
Исходная проблема экспертизы была сформулирована следующим образом. Автором произведений «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец» является Э. Плющихин, а произведений «Шакалы», «Трудное решение» -- В. Непомнящий. Авторство произведений «Следователь президента», «Смоленская площадь» является предметом спора.
В процессе проведения экспертизы необходимо было подготовить ответ на следующие вопросы:
1. Есть ли специфические языковые особенности, отличающие произведения В. Непомнящего «Шакалы», «Трудное решение» от произведений Э. Плющихина «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец», а также от спорной группы произведений -- «Следователь президента», «Смоленская площадь»?
2. Есть ли специфические языковые особенности, характерные одновременно для произведений Э.Плющихина «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец» и спорной группы произведений «Следователь президента», «Смоленская площадь», но не присущие произведениям В. Непомнящего «Шакалы» и «Трудное решение»?
3. Можно ли считать, что выявленные языковые особенности являются существенной чертой авторских стилей названных писателей и могут использоваться при установлении авторства художественного текста?
В исследовании по экспертизе использовалась методика количественного анализа квазисинонимичных лексем.
Сущность методики заключается в выявлении авторских предпочтений в выборе из группы квазисинонимов -- близких по значению слов или устойчивых словосочетаний (фразеологизмов). В литературоведении и структурной поэтике близкие методы привлекаются для характеристики стиля писателя и особенностей его видения мира. Интересную информацию об идиолекте писателя дает изучение частотных характеристик служебных и модальных слов. Так, частицы разве и неужели по-разному распределены в романах М. Булгакова «Мастер и Маргарита» и «Белая гвардия»: разве значительно чаще встречается в «Мастере и Маргарите», а неужели -- наоборот. Значение частицы разве предполагает более активную, действенную позицию говорящего, подвергающего сомнению некоторое положение дел. В противоположность разве частица неужели скорее указывает на то, что некоторое положение дел практически принимается говорящим и он лишь недоумевает, удивляется, почему оно имеет место. Учитывая значение этих частиц, указанные факты распределения разве и неужели можно интерпретировать как лингвистический коррелят авторской позиции в изображении событий и действий героев: нечто вроде пассивного «изумления», «удивления» автора в «Белой гвардии» и при активном восприятии реальности в «Мастере и Маргарите».
Такие «всплески» распределения частот служебных и модальных слов характеризуют не только отдельные тексты художественной прозы, но и оказываются характерологическими для одного писателя, оказываясь поверхностным проявлением его идеологической и творческой позиции. Явная нестандартность распределения частоты некоторых служебных слов наблюдается и в произведениях Ф. М. Достоевского.
В современном русском языке распределение служебных фразеологизмов по меньшей мере и по крайней мере таково: на 1 употребление по меньшей мере приходится 4,1 употреблений по крайней мере.
В художественных текстах Достоевского мы встречаемся с совершенно иной ситуацией: на одно употребление по меньшей мере приходится 342,5 употреблений по крайней мере (по крайней мере -- 685 вхождений по 35 художественным текстам, по меньшей мере -- 2 вхождения по 35 художественным текстам). Всего употреблений по меньшей мере три, но одно из них приходится на контекст, более подходящий для по крайней мере.
Точно так же невозможно было бы разъяснить в нем с первого взгляда: любил он свою безответную, покорную жену или нет, а между тем он ее действительно любил, и та, конечно, это понимала. Эта Марфа Игнатьевна была женщина не только не глупая, но, может быть, и умнее своего супруга, по меньшей мере рассудительнее его в делах житейских, а между тем она ему подчинялась безропотно и безответно, с самого начала супружества, и бесспорно уважала его за духовный верх. В этом примере по крайней мере явно удачнее.
В противоположность по меньшей мере, по крайней мере с несомненностью относится к словам Достоевского. Конкордансы на это словосочетание занимают более двухсот страниц текста.
Можно было бы подумать, что в русском языке времен Достоевского распределение между по крайней мере и по меньшей мере было именно таким: частота по крайней мере существенно превосходила частоту по меньшей мере. Однако это не так. Предварительный анализ корпуса текстов Гоголя (около трех мегабайт) показывает, что различие в частотности этих единиц не так велико, как у Достоевского: на 1 употребление по меньшей мере -- 83 употребления по крайней мере. Весьма вероятно, что в сфере публицистики того времени различие в частоте употребления по меньшей мере и по крайней мере было еще меньшим и приближалось к современной норме. Здесь тоже можно видеть коррелят авторского видения мира, авторского стиля.
По полученным файлам произведений Э. Плющихина, В. Непомнящего и спорных произведений (для каждого текста в отдельности и потрем группам -- «спорная группа», «группа произведений Плющихина», «группа произведений Непомнящего») были составлены словники с указанием абсолютной и относительной частоты употребления (общее количество словоупотреблений по произведениям и по группам). Для компьютерной обработки использовалась программа DIALEX и база данных ACCESS 7 в среде Windows.
Из сферы анализа были исключены слова с предметным значением, частота употребления которых определяется конкретной проблемной областью. Были проанализированы группы квазисинонимов для следующих слоев лексической системы языка: наречия, частицы, вводные слова и выражения, фразеологические выражения (идиомы), глаголы речи, союзы и союзные слова.
Рассмотрим последовательно примеры квазисинонимов из каждой группы лексем.
Наречия степени. Первая проанализированная группа -- наречия со значением неполноты проявления какого-либо свойства, характеристики -- едва и немного. Эти наречия во многих контекстах близки по значению. Однако стилистические предпочтения авторов проявляются в тенденциях выбора этих слов. Относительная частота 15) едва и немного для спорных произведений и произведений Плющихина практически идентична, однако она существенно отличается от относительной частоты употребления этих единиц у Непомнящего: едва = 0,007 % (спорные), 0,006% (Плющихин), 0,018% (Непомнящий); немного = 0,002% (спорные), 0,002% (Плющихин), 0,031 % (Непомнящий).
Вторая группа исследованных наречий степени характеризует степень) ожидания некоторого события. К ним относятся лексемы вдруг, внезапно, неожиданно. Все эти наречия очень близки по значению. Тем самым их частотное распределение может рассматриваться как характеристика j авторского стиля. Анализ показывает, что относительные частоты употребления наречий вдруг, внезапно и неожиданно в произведениях «спорной группы» и произведений Плющихина практически совпадают: вдруг -- 0,052% (спорные), 0,05% (Плющихин); внезапно -- 0,001 % (спорные), 0,000% (Плющихин); неожиданно -- 0,007% (спорные), 0,006% (Плющихин). Относительные частоты соответствующих наречий в группе произведений Непомнящего существенно отличаются от первых двух групп: вдруг -- 0,065 %; внезапно -- 0,005 %; неожиданно -- 0,016 %.
Третья группа проанализированных наречий степени -- лексемы очень и слишком. Частотное распределение этих единиц с определенностью указывает на сходство спорной группы произведений с произведениями Плющихина. С другой стороны, относительная частота употребления очень и слишком в текстах Непомнящего существенно выше -- 0,17 % для очень (0,06 % и 0,05 % в спорной группе и в группе текстов Плющихина соответственно), 0,06% для слишком (0,01 % и 0,01 % в спорной группе и в группе текстов Плющихина) -- см. табл. 3. Тенденция к использованию лексем, имеющих в значении идею «превышения нормы какого-то свойства», характерная для Непомнящего, проявляется и в частоте употребления количественного наречия много, ср. 0,06 % в текстах Непомнящего (абс. част. 100), 0,01 % (абс. част. 26) в спорной группе, 0,02% (абс. част. 42) в произведениях Плющихина.
Частицы. Из лексико-грамматического разряда частиц были проанализированы единицы тоже и также, лексема так (в разных значениях). Если по относительной частоте частицы также все группы произведений приблизительно равны, то по относительной частоте частицы тоже первая и вторая группы (спорные произведения и произведения Плющихина) объединяются и противопоставляются третьей -- произведениям Непомнящего. Аналогично по частоте лексемы так противопоставлены спорная группа произведений и произведения Плющихина, с одной стороны, и произведения Непомнящего -- с другой.
Вводные слова и выражения. Как известно, к числу вводных слов относятся лексемы, в которых говорящий выражает свое отношение к сказанному, в частности оценку достоверности-недостоверности пропозиции. Была исследована частота употребления лексических единиц конечно, разумеется, естественно, связанных с выражением уверенности в истинности утверждаемого. Легко видеть, что относительные частоты употребления этих выражений в группе спорных произведений и в произведениях Плющихина практически совпадают, причем из группы квазисинонимов конечно, разумеется, естественно предпочтение отдается конечно. В группе произведений Непомнящего относительная частота употребления конечно ниже, чем в первых двух группах, что компенсируется использованием вводных слов разумеется и естественно.
Фразеологизмы. Специфические особенности использования фразеологизмов относятся к числу наиболее характерных стилевых особенностей. Для анализа была привлечена группа бранных идиом с компонентом черт, хер и хрен типа черт/хер/хрен его знает, черт/хер/хрен их знает и т. д. Было установлено, что эти выражения встречаются только в группе спорных произведений (абс. частота 8) и в текстах Плющихина (абс. частота 17).
Показательно использование довольно редкой идиомы тем паче: она не встречается в произведениях Непомнящего, но представлена в текстах спорной группы (5 употреблений) и в произведениях Плющихина (2 употребления).
Глаголы речи. Среди глаголов речи наибольший интерес представляют те лексемы, которые используются как авторские ремарки для введения речи персонажей. В имеющемся материале были проанализированы глаголы сказать и возразить. Несмотря на то, что по законам жанра (исследовались детективные романы) конфликтных ситуаций в спорных текстах и в произведениях Плющихина не меньше, чем в произведениях Непомнящего, возразить существенно чаще используется именно в последней группе, что является несомненным признаком авторского стиля.
Союзы и союзные слова. Анализировались также союзы и союзные слова поскольку, почему и если. Слово почему, кроме собственно союзного употребления, функционирует как вопросительное слово; для данного типа исследования это несущественно. По распределению частоты употребления и в этом случае группа произведений Плющихина существенно сближается с группой спорных произведений, а группа произведений Непомнящего противопоставлена первым двум группам, ср. для поскольку 0,03 % и 0,03 % vs. 0,00 %; для почему 0,05 % и 0,04 % vs. 0,13 %; для если 0,22 % и 0,23 % vs. 0,31 %.
Проведенное исследование позволяет говорить о том, что существуют специфические языковые особенности, отличающие стиль произведений Э. Плющихина от стиля произведений В. Непомнящего. Эти особенности проявляются на различных уровнях лексической системы языка -- в выборе наречий, вводных слов, частиц, фразеологизмов, союзов и союзных слов, а также глаголов речи. Характерные черты стиля Э. Плющихина прослеживаются в произведениях спорной группы «Следователь президента» и «Смоленская площадь». С другой стороны, характерные языковые черты стиля В. Непомнящего не обнаруживаются в произведениях спорной группы. В рамках данного ограниченного по объему материала (для предложенных текстов двух данных писателей) выявленные особенности авторского языка могут рассматриваться как существенный фактор в пользу признания авторства Э. Плющихина на произведения спорной группы.
Заключение
В заключении необходимо отметить, что цель квантитативной лингвистики состоит в том, чтобы сформулировать законы, по которым функционирует язык, и построить общую теорию в виде совокупности взаимосвязанных законов функционирования языка. При этом законы должны быть в достаточном объеме и успешно проверены на эмпирических данных, то есть такими, которые нельзя опровергнуть, несмотря на многочисленные попытки. Математические и статистические методы позволяют построить относительно ровную закономерность.
Однако лингвистам не следует бездумно рассчитывать на гарантированное получение точных и объективных данных при применении какого-нибудь математического аппарата. На самом деле грамотно выбранный математический аппарат позволяет обобщить полученные данные или представить материал в более организованном виде или создать модель явления. Тем не менее, нельзя забывать, что модель неизбежно огрубляет действительность. Б. Рассел сказал: «Как это ни парадоксально, но всякая точная наука подчинена идее приближенности».
В действительности далеко не всякое применение чисел или математического аппарата или компьютеров делает результаты строгими и научными. Неверно также думать, что математика обязательно связана с количественными оценками и со статистикой. Современная математика изучает абстрактные системы, из которых лишь некоторые являются количественными, и вычисления часто играют лишь вспомогательную роль.
Скорость развития науки непрерывно увеличивается, и сейчас невозможно предвидеть, какие науки выйдут на передний край в ближайшем будущем. Поэтому современному ученому нужна широкая подготовка. Ему недостаточно знакомства с достижениями в своей области. Современный лингвист должен иметь широкий кругозор, иметь представление о том, что делается в других направлениях.
Список литературы
1) Андреев Н. Д., Статистико-комбинаторные методы в теоретическом и прикладном языковедении, Л., 1967;
2) Баранов А.Н., Введение в прикладную лингвистику; учебное пособие. -- М.: Эдиториал УРСС, 2001. -- 360 с.
3) Левицкий В. В., Квантитативные методы в лингвистике. - Винница.: Новая книга, 2007. - 264с.
4) Малышева Н. В., Квантитативная лингвистика в современной научной парадигме.; Статья. - Комсомольск-на-Амуре.- 2014. - Современные научные исследования. Выпуск 2.
5) Успенский И.В., ИНТЕРНЕТ-МАРКЕТИНГ; Учебник.- СПб.: Изд-во СПГУЭиФ, 2003.
6) Чурсин Н. Н., Популярная информатика; - К.: «Техника», 1982.
7) Соснина, Е. П., Введение в прикладную лингвистику: учебное пособие / Е. П. Соснина. -2-е изд., испр. и доп. - Ульяновск : УлГТУ, 2012. - 110 с.
8) Шайкевич А. Я. Количественные методы // Лингвистический энциклопедический словарь. М., 1990.
Размещено на Allbest.ur
...Подобные документы
Место и роль компьютерной лингвистики в лингвистических исследованиях. Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике. Современные интерфейсы компьютерной лингвистики. Перспективная задача компьютерной лингвистики.
курсовая работа [28,5 K], добавлен 22.11.2009Компьютерная лингвистика - особая прикладная дисциплина. Когнитивный инструментарий компьютерной лингвистики, омонимичность его основных понятий. Использование компьютерных средств обработки языковых данных. Гипертекстовые технологии представления текста.
реферат [37,2 K], добавлен 08.08.2010Разработка алгоритмов на персональном компьютере, среда Турбо Паскаль. Работа программы для шифровки и дешифровки текста. Алгоритм шифрования: с помощью команды ORD. Функция Password а преобразовании символа, введенного пользователем ключа в его числовой
курсовая работа [19,6 K], добавлен 17.10.2008Базовые основы программы Prolog - языка и системы логического программирования. Работа с текстами и предложениями. Электронный казахско-русско-английский словарь. Дистанционный комплекс обучения государственному языку специалистов технического профиля.
реферат [45,6 K], добавлен 15.09.2014Работа в окне документа. Ввод текста. Вставка и удаление текста. Отмена результатов выполненных действий. Перемещение и копирование текста методом "перетащить-оставить". Форматирование текста. Сохранение документа. Шаг вперед: смена регистра.
лабораторная работа [220,9 K], добавлен 10.03.2007Компьютерное моделирование - вид технологии. Анализ электрических процессов в цепях второго порядка с внешним воздействием с применением системы компьютерного моделирования. Численные методы аппроксимации и интерполяции и их реализация в Mathcad и Matlab.
курсовая работа [1,1 M], добавлен 21.12.2013Интерфейс текстового редактора MS Word. Редактирование и форматирование текста в MS Word, вставка таблиц, текста WordArt и объектов из другого приложения. Создание схематических диаграмм, использование данных из табличного процессора Microsoft Excel.
презентация [1022,7 K], добавлен 05.06.2015Создание web-страниц с использованием языка HTML. Работа с графикой в Adobe Photoshop и Flash CS. Создание динамических web-страниц с использованием JavaScript и PHP. Базы данных и PHP. Пример реализации "Эконометрической модели экономики России" под WEB.
презентация [432,3 K], добавлен 25.09.2013Работа с фигурным текстом. Форматирование и редактирование текста. Редактирование узлов фигурного текста. Привязка текста к фигурам. Выравнивание текста на фигуре. Перспектива, оболочки и выдавливание. Работа с простым текстом.
реферат [12,7 K], добавлен 21.12.2003Понятие и цель применения текстовых данных. Принцип кодирования азбуки Морзе. Основные методы языка высокого уровня C#. Алгоритм работы, листинг, тестирование программы для перевода текста в последовательность кодов азбуки Морзе. Руководство пользователя.
курсовая работа [1,4 M], добавлен 15.01.2013Диалоговые системы как составляющая компьютерной лингвистики. Их характеристики и типы. Использование сценариев при их создании. Структура ДС с интеллектуальным интерфейсом на естественном языке. Способ и система для предоставления речевого интерфейса.
курсовая работа [195,8 K], добавлен 23.01.2014Появление поисковых систем. Применение семантических сетей для анализа текста. Определение релевантности, ранжирование и индексация. Особенности программы Balabolka. Системы анализа речи. Современные особенности поиска. Развитие сервисов поисковых систем.
реферат [3,2 M], добавлен 22.04.2015История развития компьютерного анализа текста на естественном языке; выделение его проблем. Принципы извлечения информации и обработки разговорной речи. Ознакомление с программными продуктами, реализующими машинный перевод и проверку орфографии.
реферат [371,0 K], добавлен 13.02.2011Распознавание текста на изображениях как очень важная задача, имеющая множество практических приложений. Особенности архитектуры интегрированной системы получения текстовой информации из изображений. Общая характеристика методов выделения текста.
курсовая работа [1,7 M], добавлен 12.06.2016Значение компьютерного моделирования, прогнозирования событий, связанных с объектом моделирования. Совокупность взаимосвязанных элементов, важных для целей моделирования. Особенности моделирования, знакомство со средой программирования Турбо Паскаль.
курсовая работа [232,6 K], добавлен 17.05.2011Основные требования к разрабатываемым программам и исходным текстовым файлам. Характеристика шифров замены. Укрупненные структурные схемы и коды программ шифрования и дешифрования, скриншоты их выполнения. Пример зашифрованного текста и его дешифрования.
курсовая работа [556,8 K], добавлен 14.01.2013Создание Web-страниц с использованием HTML, с использованием JavaScript и PHP. Работа с графикой в Adobe Photoshop и Flash CS. Базы данных и PHP. Пример реализации "Эконометрической модели экономики России" под web. Основы компьютерного моделирования.
презентация [4,4 M], добавлен 25.09.2013История появления и развития шифрования текста. Проблема шифрования и дешифрования текстовых сообщений в современности. Создание программы для зашифровки и расшифровки вводимого текста пятью методами: Атбаш, Цезаря, Полибия, Гронсфельда и Винжера.
курсовая работа [923,6 K], добавлен 26.12.2011Формальные модели морфологии и семантики. Основные синтаксические концепции. Трансформационная грамматика. Представление о модели "смысл-текст". Виды прагматических знаний. Автоматический анализ и синтез речи. Машинный перевод текста. Экспертные системы.
курсовая работа [294,2 K], добавлен 19.06.2015Понятие безопасности данных. Базовые технологии сетевой аутентификации информации на основе многоразового и одноразового паролей: авторизация доступа, аудит. Сертифицирующие центры, инфраструктура с открытыми ключами, цифровая подпись, программные коды.
курсовая работа [861,3 K], добавлен 23.12.2014