Об упорядоченном алфавитном кодировании слов естественных языков
Определение упорядоченного алфавитного кодирования, согласно которому слову ставится в соответствие его же набор букв, расположенных в алфавитном порядке. Деление свойств прямого и обратного отображения множества слов на множество их кодов-образов.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 28.10.2015 |
Размер файла | 57,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Институт математики АН Республики Таджикистан
Об упорядоченном алфавитном кодировании слов естественных языков
З.Д. Усманов
Аннотация
В статье дается определение упорядоченного алфавитного кодирования, согласно которому слову ставится в соответствие его же набор букв, расположенных в алфавитном порядке. Отмечаются свойства прямого и обратного отображения множества слов на множество их кодов-образов. Формулируются задачи статистического исследования предложенного отображения на примере естественных языков.
Ключевые слова: естественный язык - слово - кодирование - образ - отображение кодирование слово образ
Адрес для корреспонденции: Усманов Зафар Джураевич, 734063, Республика Таджикистан, г. Душанбе, ул. Айни 299/1, Институт математики. E-mail: zafar-usmanov@rambler.ru
1. Пусть - какой-либо естественный язык с алфавитом и - некоторое его слово длины n, состоящее из букв , k = 1, 2,…, n. Рассмотрим цепочку , составленную из тех же самых букв, что и в , но упорядоченных по алфавиту.
Определение. Отображение назовём упорядоченным алфавитным кодированием (- кодированием) слова , а цепочку букв ? его - кодом..
Для пояснения определения укажем, что - кодирование, например, слова = "реферат" приводит к цепочке = "аеерртф", а слова = "агент" ? к той же самой цепочке = "агент", поскольку в этом слове буквы уже расположены в алфавитном порядке.
Слово и его образ можно интерпретировать как две фиксированные алгебраические перестановки из множества n! возможных перестановок n букв, составляющих слово , [1]. Необходимо отметить, что в случае, когда все буквы различные, такая интерпретация очевидна. Если же в слове какая-либо буква встречается более одного раза, то её вместе со своими повторами следует различать по порядку их расположения в слове.
2. Вполне понятно, что - отображение каждому слову ставит в соответствие единственный образ , однако обратное отображение (декодирование) является, вообще говоря, не однозначным. Действительно, нарушение однозначности порождается анаграммами, которые присутствуют во многих языках, см. например, [2] . Согласно определению, анаграмма - это, по крайней мере, пара слов естественного языка, составленных из одного и того же набора букв (например, для русского языка: весна - навес, рост ?сорт ?трос ?торс, равновесие - своенравие и т.п). Всякой анаграмме соответствует единственный образ, - код.
В связи со сказанным возникает
Задача 1.
Оценить на основе статистических данных относительные частоты встречаемости анаграмм в естественных языках.
Получаемые оценки дадут представления о том, какова мощность множества анаграмм и в какой мере их наличие нарушает взаимную однозначность предложенного отображения в естественных языках.
3. Помимо рассмотренного - отображения представляют интерес четыре его модификации, обозначаемые через , , и . Также, как и , они определены на множестве слов естественного языка .
Модифицированное отображение наделим следующими свойствами:
· определено на множестве {}, ;
· , то есть отображает слова на их - коды;
· обратное отображение на множестве однозначно декодируемых кодов совпадает с , а на множестве анаграмм каждому образу ставит в соответствие единственное слово , которое имеет максимальную частоту встречаемости в текстах в сравнении с другими словами из набора слов, рассматриваемой анаграммы.
4. В случае слову ставится в соответствие пара (, ), в которой , так же как и в п.1, является - кодом слова , а - число транспозиций, с помощью которых осуществляется переход от цепочки к цепочке (или же наоборот от к ). Здесь предполагается, что n! всевозможных перестановок букв слова расположены в таком порядке, что каждая следующая перестановка получается из предыдущей одной транспозицией, [1].
Представляется очевидным, что отображение , уж если и не является взаимно однозначным, то, во всяком случае, осуществляет более "успешное" декодирование, нежели .
5. В случае - отображения слову ставится в соответствие цепочка , в которой - первая буква в слове и есть - код цепочки , т.е. слова без первой буквы.
Так же как и отображение предыдущего пункта, декодирование в определенном смысле обладает лучшими свойствами, чем .
6. Ещё один способ кодирования представляется следующим образом : . В нём первая и последняя буквы слова остаются неподвижными, а цепочка букв между ними, т.е. , подвергается - кодированию.
Очевидно, что данное отображение несколько сложнее, чем предыдущее, зато наверняка успешнее в вопросах декодирования.
7. Подводя итоги, отметим, что все рассмотренные отображения произвольному слову ставят в соответствие единственный образ. В свою очередь, их обратные отображения (декодирования) не являются, вообще говоря, однозначными. Как отмечалось в п.1, для обратного -отображения нарушение однозначности происходит за счет анаграмм: образу всякой анаграммы соответствует не менее двух прообразов на множестве .
Обращение к модифицированным отображениям , , и - это, по существу, попытка устранения неоднозначности при декодировании анаграмм и распознавания порождающих их прообразов за счет использования дополнительных атрибутов, присоединяемых к - кодированию.
Эффективность введённых отображений для тех или иных естественных языков может быть оценена лишь экспериментально, путем статистической обработки репрезентативной информации. По этой причине заслуживает внимание
Задача 2.
Изучить статистические свойства , , и отображений, в частности оценить эффективность декодирования образов анаграмм.
Интерес к -отображению, равно как и сопутствующим отображениям , , и , объясняется тем, что на множестве их цепочек-образов в сравнении с исходным множеством слов решение ряда задач обработки текстовой информации заметно упрощается.
В качестве примера рассмотрим использование -отображения для автоматического исправления ошибки, возникшей вследствие перестановки букв в написании некоторого слова . Этот процесс происходит следующим образом. Вначале слову сопоставляется его код . Затем по коду происходит поиск его прообраза в базе " ". Если не является элементом анаграммы, то будет единственным прообразом . И следовательно, ошибка, связанная с перестановкой букв (причем не обязательно рядом стоящих), исправляется.
Если же оказалась - кодом анаграммы (например, = "аворт" является кодом анаграммы автор - отвар - рвота - тавро - товар), то выбор прообраза может быть произведен, например, по его максимальной частоте (как при отображении ). Однако в этом случае не исключается ошибка в принятии решения.
Литература
1. Курош А.Г. ? Курс высшей алгебры. М., Наука, Главная редакция физико-математической литературы, 1968, 431 с.
2. Анаграмма ? Википедия: http://ru.wikipedia.org/wiki/%D0%90%D0%BD%D0%B0%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0
Размещено на Allbest.ru
...Подобные документы
Понятие исконно русской лексики, причины заимствования из других языков. Появление слов–интернационализмов, слов-калек, слов-экзотизмов и варваризмов. Приспособление иностранных слов к русским графическим и языковым нормам, орфоэпические нормы.
реферат [27,6 K], добавлен 25.10.2010Способы передачи прямой речи в разговоре. Роль авторских слов в предложении. Оформление прямой речи на письме, правила расстановки знаков препинания. Употребление прямого и обратного порядка слов. Понятия и правила оформления на письме диалогов и цитат.
презентация [73,8 K], добавлен 11.05.2011Стилистическая классификация заимствованных слов. Стилистически не оправданное употребление заимствованных слов. Лексика, имеющая ограниченную сферу распространения. Термины как слова, заимствованные из других языков. Канцеляризмы и речевые штампы.
реферат [33,6 K], добавлен 09.11.2007Формирование национальных языков. Изучение отдельных германских языков. Общие характеристики германских языков. Сопоставление слов германских языков со словами других индоевропейских языков. Особенности морфологической системы древнегерманских языков.
реферат [53,5 K], добавлен 20.08.2011Природа возникновения и этимология некоторых слов русского языка. История заимствования слов и выражений из других культур и языков. Структура фразеологизма как устойчивого, лексически неделимого словосочетания. История жизни некоторых фразеологизмов.
реферат [55,7 K], добавлен 07.12.2013Согласные и гласные звуки. Определение согласных фонем, видов аффикса. Характер группировки слов по синтагматическому или парадигматическому типу. Создание групп многозначных слов по типу тропа. Место различных языков в генеалогической классификации.
контрольная работа [19,6 K], добавлен 19.04.2012Определение слов с ударением на втором слоге. Формы настоящего и прошедшего времени единственного числа от глаголов. Определение слов с твердыми согласными перед е. Ошибки, вызванные нарушением лексической сочетаемости слов, и порядок их исправления.
практическая работа [10,1 K], добавлен 25.08.2011Определение прямого и переносного значений слов в русском языке. Научные термины, имена собственные, недавно возникшие слова, редко употребляемые и слова с узкопредметным значением. Основное и производные лексические значения многозначных слов.
презентация [958,3 K], добавлен 05.04.2012Сучасні слов'янські народи та їхня етнічна спорідненість. Етнічна близькість слов'ян. Класифікація слов'янських мов. Походження і розвиток мови. Мови класифікують за генеалогічними зв'язками, типом організації і суспільним статусом, поширеністю.
лекция [49,5 K], добавлен 17.12.2008Заимствованная лексика в общей лексической системе русского языка. Причины заимствования из разных языков. Заимствования из неславянских языков. Рассмотрение лексического значения заимствованных слов из немецкого, французского и греческого языка.
курсовая работа [33,1 K], добавлен 18.04.2010Проблема правильного и уместного употребления слов. Единицы языка как ячейки семантики. Морфемы полнозначных слов. Типы семантических отношений. Возможность соединения слов по смыслу в зависимости от реальной сочетаемости соответствующих понятий.
курсовая работа [40,2 K], добавлен 02.01.2017Изучение понятия и классификации слов и фразеологизмов, обозначающих психологическое состояние человека в русском языке. Характеристика стилистических свойств слов и фразеологизмов в текстах художественной литературы на примере творчества Н.С. Лескова.
курсовая работа [36,6 K], добавлен 22.02.2012Определение значения ряда слов. Лексические единицы, характерные для речи представителей определенной профессии. История риторики как филологической науки. Ораторы, внесшие вклад в развитие красноречия в Древней Греции и Древнем Риме. Правописание слов.
тест [16,2 K], добавлен 14.07.2015Историческое влияние экономических, политических и культурных контактов с другими странами на внедрение в русский язык иноязычных слов. Заимствование и освоение новых слов благодаря средствам массовой информации. Примеры происхождения некоторых слов.
реферат [20,2 K], добавлен 02.04.2010Формирование новых слов или добавление оттеночных значений к исходному слову. Классификация суффиксов субъективной оценки в итальянском и русском языках. Художественный перевод слов с суффиксами субъективной оценки. Создание эмоциональной окраски текста.
курсовая работа [40,2 K], добавлен 21.10.2011Соответствие, теме, условиям, аудитории как признак хорошей речи. Употребление слов в соответствии с их языковым значением. Выбор слов из синонимического ряда. Лексическое разнообразие речи. Отсутствие в речи элементов, чуждых литературному языку.
курсовая работа [34,1 K], добавлен 26.04.2010Изучение звукоподражательной лексики в отечественной и зарубежной лингвистике. Классификации звукоподражательных слов. Сопоставительный анализ звукоподражательных слов английского и русского языков. Особенности перевода звукоподражательной лексики.
дипломная работа [82,7 K], добавлен 21.10.2011Этимология как наука, которая объясняет происхождение слов, ее предмет и методы исследования, современные достижения и тенденции. Этапы объяснения написания слов через его первоначальный смысл. Принципы и правила работы с этимологическими словарями.
презентация [606,4 K], добавлен 12.10.2013Под влиянием исторических, политических и экономических факторов англицизмы широко распространены в нашем языке. В обществе используется большое количество заимствованных слов, сленга, жаргонизмов. Однако возможно обходиться без заимствованных слов.
научная работа [56,8 K], добавлен 18.12.2008Основные причины возникновения энантиосемии и ее основные виды. Главные принципы отбора энантиосемичных слов. Дефиниционный и компонентный анализы значений английских и французских энантиосемичных слов. Энантиосемия в свете теории противоположности.
дипломная работа [131,6 K], добавлен 12.04.2012