Об упорядоченном алфавитном кодировании слов естественных языков

Определение упорядоченного алфавитного кодирования, согласно которому слову ставится в соответствие его же набор букв, расположенных в алфавитном порядке. Деление свойств прямого и обратного отображения множества слов на множество их кодов-образов.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 28.10.2015
Размер файла 57,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Институт математики АН Республики Таджикистан

Об упорядоченном алфавитном кодировании слов естественных языков

З.Д. Усманов

Аннотация

В статье дается определение упорядоченного алфавитного кодирования, согласно которому слову ставится в соответствие его же набор букв, расположенных в алфавитном порядке. Отмечаются свойства прямого и обратного отображения множества слов на множество их кодов-образов. Формулируются задачи статистического исследования предложенного отображения на примере естественных языков.

Ключевые слова: естественный язык - слово - кодирование - образ - отображение кодирование слово образ

Адрес для корреспонденции: Усманов Зафар Джураевич, 734063, Республика Таджикистан, г. Душанбе, ул. Айни 299/1, Институт математики. E-mail: zafar-usmanov@rambler.ru

1. Пусть - какой-либо естественный язык с алфавитом и - некоторое его слово длины n, состоящее из букв , k = 1, 2,…, n. Рассмотрим цепочку , составленную из тех же самых букв, что и в , но упорядоченных по алфавиту.

Определение. Отображение назовём упорядоченным алфавитным кодированием (- кодированием) слова , а цепочку букв ? его - кодом..

Для пояснения определения укажем, что - кодирование, например, слова = "реферат" приводит к цепочке = "аеерртф", а слова = "агент" ? к той же самой цепочке = "агент", поскольку в этом слове буквы уже расположены в алфавитном порядке.

Слово и его образ можно интерпретировать как две фиксированные алгебраические перестановки из множества n! возможных перестановок n букв, составляющих слово , [1]. Необходимо отметить, что в случае, когда все буквы различные, такая интерпретация очевидна. Если же в слове какая-либо буква встречается более одного раза, то её вместе со своими повторами следует различать по порядку их расположения в слове.

2. Вполне понятно, что - отображение каждому слову ставит в соответствие единственный образ , однако обратное отображение (декодирование) является, вообще говоря, не однозначным. Действительно, нарушение однозначности порождается анаграммами, которые присутствуют во многих языках, см. например, [2] . Согласно определению, анаграмма - это, по крайней мере, пара слов естественного языка, составленных из одного и того же набора букв (например, для русского языка: весна - навес, рост ?сорт ?трос ?торс, равновесие - своенравие и т.п). Всякой анаграмме соответствует единственный образ, - код.

В связи со сказанным возникает

Задача 1.

Оценить на основе статистических данных относительные частоты встречаемости анаграмм в естественных языках.

Получаемые оценки дадут представления о том, какова мощность множества анаграмм и в какой мере их наличие нарушает взаимную однозначность предложенного отображения в естественных языках.

3. Помимо рассмотренного - отображения представляют интерес четыре его модификации, обозначаемые через , , и . Также, как и , они определены на множестве слов естественного языка .

Модифицированное отображение наделим следующими свойствами:

· определено на множестве {}, ;

· , то есть отображает слова на их - коды;

· обратное отображение на множестве однозначно декодируемых кодов совпадает с , а на множестве анаграмм каждому образу ставит в соответствие единственное слово , которое имеет максимальную частоту встречаемости в текстах в сравнении с другими словами из набора слов, рассматриваемой анаграммы.

4. В случае слову ставится в соответствие пара (, ), в которой , так же как и в п.1, является - кодом слова , а - число транспозиций, с помощью которых осуществляется переход от цепочки к цепочке (или же наоборот от к ). Здесь предполагается, что n! всевозможных перестановок букв слова расположены в таком порядке, что каждая следующая перестановка получается из предыдущей одной транспозицией, [1].

Представляется очевидным, что отображение , уж если и не является взаимно однозначным, то, во всяком случае, осуществляет более "успешное" декодирование, нежели .

5. В случае - отображения слову ставится в соответствие цепочка , в которой - первая буква в слове и есть - код цепочки , т.е. слова без первой буквы.

Так же как и отображение предыдущего пункта, декодирование в определенном смысле обладает лучшими свойствами, чем .

6. Ещё один способ кодирования представляется следующим образом : . В нём первая и последняя буквы слова остаются неподвижными, а цепочка букв между ними, т.е. , подвергается - кодированию.

Очевидно, что данное отображение несколько сложнее, чем предыдущее, зато наверняка успешнее в вопросах декодирования.

7. Подводя итоги, отметим, что все рассмотренные отображения произвольному слову ставят в соответствие единственный образ. В свою очередь, их обратные отображения (декодирования) не являются, вообще говоря, однозначными. Как отмечалось в п.1, для обратного -отображения нарушение однозначности происходит за счет анаграмм: образу всякой анаграммы соответствует не менее двух прообразов на множестве .

Обращение к модифицированным отображениям , , и - это, по существу, попытка устранения неоднозначности при декодировании анаграмм и распознавания порождающих их прообразов за счет использования дополнительных атрибутов, присоединяемых к - кодированию.

Эффективность введённых отображений для тех или иных естественных языков может быть оценена лишь экспериментально, путем статистической обработки репрезентативной информации. По этой причине заслуживает внимание

Задача 2.

Изучить статистические свойства , , и отображений, в частности оценить эффективность декодирования образов анаграмм.

Интерес к -отображению, равно как и сопутствующим отображениям , , и , объясняется тем, что на множестве их цепочек-образов в сравнении с исходным множеством слов решение ряда задач обработки текстовой информации заметно упрощается.

В качестве примера рассмотрим использование -отображения для автоматического исправления ошибки, возникшей вследствие перестановки букв в написании некоторого слова . Этот процесс происходит следующим образом. Вначале слову сопоставляется его код . Затем по коду происходит поиск его прообраза в базе " ". Если не является элементом анаграммы, то будет единственным прообразом . И следовательно, ошибка, связанная с перестановкой букв (причем не обязательно рядом стоящих), исправляется.

Если же оказалась - кодом анаграммы (например, = "аворт" является кодом анаграммы автор - отвар - рвота - тавро - товар), то выбор прообраза может быть произведен, например, по его максимальной частоте (как при отображении ). Однако в этом случае не исключается ошибка в принятии решения.

Литература

1. Курош А.Г. ? Курс высшей алгебры. М., Наука, Главная редакция физико-математической литературы, 1968, 431 с.

2. Анаграмма ? Википедия: http://ru.wikipedia.org/wiki/%D0%90%D0%BD%D0%B0%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0

Размещено на Allbest.ru

...

Подобные документы

  • Понятие исконно русской лексики, причины заимствования из других языков. Появление слов–интернационализмов, слов-калек, слов-экзотизмов и варваризмов. Приспособление иностранных слов к русским графическим и языковым нормам, орфоэпические нормы.

    реферат [27,6 K], добавлен 25.10.2010

  • Способы передачи прямой речи в разговоре. Роль авторских слов в предложении. Оформление прямой речи на письме, правила расстановки знаков препинания. Употребление прямого и обратного порядка слов. Понятия и правила оформления на письме диалогов и цитат.

    презентация [73,8 K], добавлен 11.05.2011

  • Стилистическая классификация заимствованных слов. Стилистически не оправданное употребление заимствованных слов. Лексика, имеющая ограниченную сферу распространения. Термины как слова, заимствованные из других языков. Канцеляризмы и речевые штампы.

    реферат [33,6 K], добавлен 09.11.2007

  • Формирование национальных языков. Изучение отдельных германских языков. Общие характеристики германских языков. Сопоставление слов германских языков со словами других индоевропейских языков. Особенности морфологической системы древнегерманских языков.

    реферат [53,5 K], добавлен 20.08.2011

  • Природа возникновения и этимология некоторых слов русского языка. История заимствования слов и выражений из других культур и языков. Структура фразеологизма как устойчивого, лексически неделимого словосочетания. История жизни некоторых фразеологизмов.

    реферат [55,7 K], добавлен 07.12.2013

  • Согласные и гласные звуки. Определение согласных фонем, видов аффикса. Характер группировки слов по синтагматическому или парадигматическому типу. Создание групп многозначных слов по типу тропа. Место различных языков в генеалогической классификации.

    контрольная работа [19,6 K], добавлен 19.04.2012

  • Определение слов с ударением на втором слоге. Формы настоящего и прошедшего времени единственного числа от глаголов. Определение слов с твердыми согласными перед е. Ошибки, вызванные нарушением лексической сочетаемости слов, и порядок их исправления.

    практическая работа [10,1 K], добавлен 25.08.2011

  • Определение прямого и переносного значений слов в русском языке. Научные термины, имена собственные, недавно возникшие слова, редко употребляемые и слова с узкопредметным значением. Основное и производные лексические значения многозначных слов.

    презентация [958,3 K], добавлен 05.04.2012

  • Сучасні слов'янські народи та їхня етнічна спорідненість. Етнічна близькість слов'ян. Класифікація слов'янських мов. Походження і розвиток мови. Мови класифікують за генеалогічними зв'язками, типом організації і суспільним статусом, поширеністю.

    лекция [49,5 K], добавлен 17.12.2008

  • Заимствованная лексика в общей лексической системе русского языка. Причины заимствования из разных языков. Заимствования из неславянских языков. Рассмотрение лексического значения заимствованных слов из немецкого, французского и греческого языка.

    курсовая работа [33,1 K], добавлен 18.04.2010

  • Проблема правильного и уместного употребления слов. Единицы языка как ячейки семантики. Морфемы полнозначных слов. Типы семантических отношений. Возможность соединения слов по смыслу в зависимости от реальной сочетаемости соответствующих понятий.

    курсовая работа [40,2 K], добавлен 02.01.2017

  • Изучение понятия и классификации слов и фразеологизмов, обозначающих психологическое состояние человека в русском языке. Характеристика стилистических свойств слов и фразеологизмов в текстах художественной литературы на примере творчества Н.С. Лескова.

    курсовая работа [36,6 K], добавлен 22.02.2012

  • Определение значения ряда слов. Лексические единицы, характерные для речи представителей определенной профессии. История риторики как филологической науки. Ораторы, внесшие вклад в развитие красноречия в Древней Греции и Древнем Риме. Правописание слов.

    тест [16,2 K], добавлен 14.07.2015

  • Историческое влияние экономических, политических и культурных контактов с другими странами на внедрение в русский язык иноязычных слов. Заимствование и освоение новых слов благодаря средствам массовой информации. Примеры происхождения некоторых слов.

    реферат [20,2 K], добавлен 02.04.2010

  • Формирование новых слов или добавление оттеночных значений к исходному слову. Классификация суффиксов субъективной оценки в итальянском и русском языках. Художественный перевод слов с суффиксами субъективной оценки. Создание эмоциональной окраски текста.

    курсовая работа [40,2 K], добавлен 21.10.2011

  • Соответствие, теме, условиям, аудитории как признак хорошей речи. Употребление слов в соответствии с их языковым значением. Выбор слов из синонимического ряда. Лексическое разнообразие речи. Отсутствие в речи элементов, чуждых литературному языку.

    курсовая работа [34,1 K], добавлен 26.04.2010

  • Изучение звукоподражательной лексики в отечественной и зарубежной лингвистике. Классификации звукоподражательных слов. Сопоставительный анализ звукоподражательных слов английского и русского языков. Особенности перевода звукоподражательной лексики.

    дипломная работа [82,7 K], добавлен 21.10.2011

  • Этимология как наука, которая объясняет происхождение слов, ее предмет и методы исследования, современные достижения и тенденции. Этапы объяснения написания слов через его первоначальный смысл. Принципы и правила работы с этимологическими словарями.

    презентация [606,4 K], добавлен 12.10.2013

  • Под влиянием исторических, политических и экономических факторов англицизмы широко распространены в нашем языке. В обществе используется большое количество заимствованных слов, сленга, жаргонизмов. Однако возможно обходиться без заимствованных слов.

    научная работа [56,8 K], добавлен 18.12.2008

  • Основные причины возникновения энантиосемии и ее основные виды. Главные принципы отбора энантиосемичных слов. Дефиниционный и компонентный анализы значений английских и французских энантиосемичных слов. Энантиосемия в свете теории противоположности.

    дипломная работа [131,6 K], добавлен 12.04.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.