Кодирование предложений

Специальный способ упорядоченного алфавитного кодирования буквенных цепочек, позволяющий упорядочивать предложения в пределах текста, а также определять, являются ли любые два предложения, извлеченные из коллекции текстов, анаграммами друг друга.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 28.10.2015
Размер файла 41,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Институт математики АН Республики Таджикистан

Кодирование предложений

Академик АН Республики Таджикистан З.Д. Усманов

Аннотация

Предлагается специальный способ упорядоченного алфавитного кодирования буквенных цепочек, позволяющий упорядочивать предложения в пределах текста, а также определять, являются ли любые два предложения, извлеченные из коллекции текстов, анаграммами друг друга или нет.

Ключевые слова: естественный язык - цепочка - кодирование -упорядочение - анаграмма кодирование буквенный предложение

Адрес для корреспонденции:

Усманов Зафар Джураевич, Институт математики АН РТ, 734063, Республика Таджикистан, г. Душанбе, пр. Айни, д. 299/1. E-mail: zafar-usmanov@rambler.ru.

Кодирование цепочек. Для естественного языка L с буквенным алфавитом A обозначим через некоторую цепочку букв длины n (, ). Введём в рассмотрение цепочку , составленную из тех же самых букв, что и в , но упорядоченных по алфавиту A (пример: если , тогда ).

Определение 1. Отображение назовём упорядоченным алфавитным (-) кодированием цепочки , в свою очередь назовём - кодом цепочки W .

Отображение F и ряд "сопутствующих" отображений предложены в [1] для кодирования словоформ и автоматизации процесса обнаружения анаграмм в текстовых коллекциях. В [2] и [3] для английского, литовского, русского и таджикского языков, а также искусственного языка эсперанто выполнен статистический анализ эффективности - кодирования (в смысле возможности осуществления взаимно однозначного соответствия между словоформами и их - кодами). В [4] и [5] для текстовых корпусов таджикского, английского и русского языков получены статистические данные о количестве различных анаграмм с заданными мощностями (числом элементов). Анонсирован ряд анаграмм с наибольшим количеством элементов.

Во всех статьях обработка данных основывается на двух процедурах:

- построении списка различных словоформ с частотами их встречаемости в базе данных;

- кодировании полученных словоформ и формировании списка различных кодов с частотами их встречаемости.

Словоформа является частным случаем понятия цепочки букв, однако это не препятствует автоматическому распространению описанных процедур на множество {W}, элементами которых являются цепочки W. Итогом выполнения первой процедуры будет список цепочек с их частотами на множестве {W}, а итогом второй - список различных - кодов множества цепочек.

Эти процедуры, формальные по отношению к абстрактным цепочкам, приобретают определённый смысл в следующем пункте.

Кодирование предложений. Пусть S - некоторое предложение на языке L, состоящее из p словоупотреблений. Удалив из S все знаки препинаний и пробелы между словоупотреблениями, получим цепочку W(S) букв предложения S.

Определение 2. Цепочку CW(S), получаемую отображением F : W(S) > CW(S), назовём - кодом предложения S.

Из этого определения следует

Утверждение. Пусть и - два различных предложения таких Предложения рассматриваются с точностью до знаков препинания, что . Тогда и - суть элементы одной анаграммы, т.е. получаются один из другого перестановками соответствующих букв.

ПРИМЕР 1 (En). Пусть = "еleven plus two" и = "twelve plus one". Так как оба предложения имеют один и тот же - код, а именно = "eeellnopstvuw", то в соответствии с высказанным утверждением рассмотренные предложения являются элементами одной анаграммы, поскольку состоят из одного и того же набора букв.

ПРИМЕР 2 (Ru). = "сижу в области" и = "вижу слабости". И у этих предложений один и тот же - код ="абвжиилоссту".

ПРИМЕР 3 (Ru). = "Леонардо да Винчи" и = "На вид родич идола". И здесь ="аавддеиилнноорч".

Эти примеры подсказывают, что если и заданы, причём оба извлечены из коллекции текстов, то сравнение их - кодов позволяет ответить на вопрос, являются ли они анаграммами друг друга или нет. На этом фоне более интересной представляется

Задача А.

По заданному определить, существует ли в пределах заданной текстовой коллекции такое , что .

Вполне понятно, что в качестве области значений и следует рассматривать множество, элементами которого являются предложения и их фрагменты. Если для конкретного задача оказывается разрешимой, то естественно ожидать получение в явном виде. Сложность решение данной задачи заключается, по-видимому, в разработке модели системного перебора в пределах заданной коллекции текстов всех претендентов на роль .

Индексирование элементов. - кодирование может быть использовано для формального (без определённых целей) упорядочения словоформ в пределах предложения, а также самих предложений - в пределах текста. В самом деле, из двух элементов, будь то словоформы или предложения, предшествующим будем считать тот, который состоит из меньшего числа букв, а в случае равенства - элемент, предшествующий по алфавиту языка L. Перенося алфавитный порядок расположения цепочек на их прообразы (словоформы и предложения), получим соответствующее упорядочение элементов.

Литература

1. Усманов З.Д. - ДАН РТ, 2012, т.55, № 7, с. 545-548.

2. Усманов З.Д., Нормантас В. - ДАН РТ, 2012, т.55, № 8, с. 622-625.

3. Усманов З.Д., Нормантас В. - Материалы 16 научно практического семинара "Новые информационные технологии в автоматизированных системах", Москва 2013, с. 287 - 292.

4. Усманов З.Д., Довудов Г.М., Холматова C.Д. - Известия АН РТ, Отделение физ.-мат., хим., геол. и техн. наук, 2013, № (14.), с.

5. Усманов З.Д., Довудов Г.М. - ДАН РТ, 2013, т.56, №8, с.

Размещено на Allbest.ru

...

Подобные документы

  • Теория предложения в английском языке. Коммуникативные и структурные типы предложений. Типы придаточных определительных предложений. Предложения лимитирующего вида. Предложения аппозитивного типа. Предложения описательного типа.

    курсовая работа [49,3 K], добавлен 12.01.2007

  • Разновидности структуры текста. Основные правила написания введения, основной части и заключения. Выбор названия и заголовков. Логичность текста, правильная организация его частей, связность предложений между собой. Простые и сложные предложения.

    презентация [55,2 K], добавлен 23.11.2015

  • Традиционная классификация сложносочиненных предложений. Бессоюзные сложные предложения открытой и закрытой, типизированной и нетипизированной структур. Нерасчлененные и расчлененные сложноподчиненные предложения, их структурная схема и основные классы.

    курсовая работа [63,1 K], добавлен 16.12.2014

  • Понятие и структура односоставных предложения, их классификация и основные разновидности, особенности и назначение. Отличительные признаки одно- и двусоставных предложений. Классификационные черты данного вида предложений, принципы их поиска в тексте.

    презентация [81,7 K], добавлен 09.11.2011

  • Глагол-сказуемое и его видо-временные формы и залог. Предложения с разными формами сравнения. Предложения с модальными глаголами или их эквивалентами. Предложения с причастиями (РI или PII) или сложными формами причастия. Особенности перевода текстов.

    контрольная работа [16,0 K], добавлен 20.05.2008

  • Общая характеристика простого предложения. Двусоставное простое предложение как основной структурно-семантический тип простого предложения. Типы односоставных предложений. Глагольные и субстантивные односоставные предложения в текстах наружной рекламы.

    курсовая работа [27,8 K], добавлен 18.04.2010

  • Возможности единиц языка. Передача содержания текста и его смысла. Владение основными речеведческими понятиями, умение определять стиль текста, тип речи, средства связи предложений в тексте. Тенденции слияния обучения языку и речи в единое целое.

    творческая работа [248,3 K], добавлен 19.08.2013

  • Понятие сложного предложения. Проблема определения. Сложное предложение в разных синтаксических аспектах. Сложноподчиненные предложения. Их классификации. Сложносочиненные предложения. Бессоюзные сложные предложения. Многокомпонентные предложения.

    дипломная работа [60,9 K], добавлен 03.12.2007

  • Односоставные предложения как особый структурно-семантический тип предложений в системе синтаксиса СРЛЯ. Особенности структуры и семантики главного члена неопределенно-личных предложений в поэтическом тексте (на материале произведений Серебряного века).

    курсовая работа [34,4 K], добавлен 21.04.2011

  • Современная характеристика распространенного предложения. Предложение - единица синтаксиса. Структура распространенного предложения. Связь в предложении. История изучения распространенного предложения. Трудности изучения русского языка.

    курсовая работа [155,5 K], добавлен 22.10.2004

  • Центральные оппозиции в системе простого предложения в русском языке. Безлично-инфинитивные предложения в структурно-грамматическом, логико-семантическом, коммуникативном аспектах. Средства выражения актуального членения безлично-инфинитивных предложений.

    дипломная работа [91,7 K], добавлен 27.06.2012

  • Разграничение временного и условного значений. Предложения с союзами предшествования, следования, одновременности. Предложения недифференцированного значения с инфинитивом в придаточной части. Бессоюзные предложения. Совмещение значений времени и условия.

    курсовая работа [71,8 K], добавлен 18.09.2013

  • Актуальное членение предложения как языковая универсалия, его связь со структурой и семантикой предложения; тема и рема. Функциональные, коммуникативные и верификативные типы высказываний на материале художественного текста произведений Ч. Айтматова.

    дипломная работа [515,6 K], добавлен 10.05.2012

  • Общие сведения о сложноподчиненном предложении в английском языке. Типы придаточных предложений: подлежащие, сказуемые, дополнительные, определительные и обстоятельственные придаточные предложения. Их основные функции в составе главного предложения.

    контрольная работа [35,4 K], добавлен 12.10.2013

  • Определение предложения и простого предложения, специфика жанра. Типы односоставных моделей в исследуемых текстах: определенно-личные, неопределенно-личные, обобщенно-личные, безличные, инфинитивные, вокативные, номинативные, нечленимые предложения.

    курсовая работа [28,7 K], добавлен 07.01.2010

  • Практический английский язык: особенности лексики на экономические тематики. Предложения, действие которых происходит в настоящее время, в прошлом, в будущем. Предложения с глаголами. Сложные существительные. Особенности перевода текстов на русский.

    контрольная работа [21,5 K], добавлен 18.05.2008

  • Специфика перевода научного текста "Вступление" с английского языка на русский. Особенности его осуществления. Переводческий комментарий. Грамматические трансформации. Перестановки на уровне предложения. Замены, опущение, добавление. Членение предложений.

    дипломная работа [247,7 K], добавлен 05.01.2018

  • Отличия предложений без вводных слов и предложений с вводными словами. Контрольный диктант для проверки владения навыками правописания, проверки орфографической и пунктуационной грамотности. Правила пунктуации при написании предложений с обращениями.

    конспект урока [26,9 K], добавлен 04.02.2013

  • Структурирование типов сложных предложений с подчинением в английском языке с проекцией на их коммуникативные свойства. Классификация подчинительных отношений внутри синтаксически сложной единицы. Исследование признаков сложноподчиненного предложения.

    курсовая работа [39,7 K], добавлен 08.06.2015

  • Побудительная модальность как разновидность функционально-коммуникативной модальности. Побудительные предложения в творчестве А. Ахматовой. Структурно-семантическая классификация побудительных предложений, используемых А. Ахматовой, их функции.

    курсовая работа [62,3 K], добавлен 13.05.2008

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.