Методы и алгоритмы проверки орфографии текстовых документов
Обоснование и характеристика основ и актуальности использования специализированного программного обеспечения, с помощью которого проверяется орфография. Ознакомление с процессом проверки орфографии, через словарь, который использует набор правил.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 03.12.2018 |
Размер файла | 48,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Пензенский государственный университет
Пензенский казачий институт технологий, (филиал) ФГБОУ ВО «Московский государственный университет технологий и управления имени К.Г. Разумовского
Методы и алгоритмы проверки орфографии текстовых документов
Рубрика: 05.00.00 технические науки
Такташкин Денис Витальевич, кандидат технических наук, доцент кафедры «МОиПЭВМ»
Мокроусова Елена Александровна, магистрант кафедры «ПиБИ»
Аннотация
В статье описаны алгоритмы проверки орфографии текстовых документов. Обосновывается актуальность использования специализированного программного обеспечения, с помощью которого проверяется орфография. Демонстрируется диаграмма вариантов использования, на которой показаны существующие методы и алгоритмы. Приводятся определения основных терминов предметной области.
Ключевые слова: алгоритмы, метод, орфография, проверка, словарь, слово, сограмма, текстовые документы
Читая любой документ, мы невольно обращаем внимание на стиль изложения, легкость восприятия, содержательность и краткость повествования. Однако нередко мы сталкиваемся с опечатками и ошибками в документах. Они могут испортить все положительное впечатление об авторе, а порой и нанести серьезный урон авторитету автора.
Общаясь на родном языке, мы практически всегда можем заметить, что тексте автор ошибся. Кроме того, мы обычно можем догадаться, что он имел в виду на самом деле. Гораздо сложнее дело обстоит в тех случаях, когда мы общаемся с иностранцами. Допущенная ошибка или опечатка в написании слова, может значительно исказить смысл всего сообщения, и даже интуиция не сможет помочь получателю текста, поскольку язык общения для него не родной.
Для исправления набранного текста и были созданы программы проверки орфографии, синтаксиса, грамматических правил построения предложений, расстановки переносов и т.д. Первыми и наиболее активными пользователями подобных программ стали те, кто занимается созданием и редактированием текстов [1].
Впоследствии такие программы были встроены в популярные текстовые редакторы. Например, компания «Информатик» лицензировала свою технологию проверки правописания компании Microsoft для MS Office. Благодаря этому огромное число пользователей получили возможность автоматически исправлять тексты, не теряя свое время на длительную проверку текста [2].
Существует множество алгоритмов проверки орфографии текстовых документов. На рисунке 1 изображена диаграмма вариантов использования, которая показывает, какие существуют алгоритмы проверки.
Рисунок 1 - Диаграмма вариантов использования
Проверить орфографию можно двумя способами.
Первый способ это проверить орфографию со словарем.
Проверка со словарем делится на проверку через словарь всех слов и на проверку через словарь, который использует набор правил.
Проверка через словарь всех слов.
Словарем является файл в формате .txt, который содержит все слова русского языка, включая все склонения и спряжения слов. Слова расположены в алфавитном порядке, каждое слово находится на новой строке.
Проверка через словарь всех слов самый популярный метод обнаружения ошибок в тексте. Проверка осуществляется обычным поиском слова в словаре. Компьютер ищет слово в словаре так же как, если бы человек взял словарь в руки и искал нужное слово. Слова расположены в алфавитном порядке, поэтому компьютер может идти в нужное место в словаре и проверять слово. Если все буквы слова будут совпадать со словом в словаре, то оно является правильным. Если же такого слова нет, то оно является ошибкой или опечаткой.
В случае если слово отсутствует в словаре, например, фамилия, название или научный термин, относящийся к какой-либо предметной области, имеется возможность ? добавить данное слово в словарь. После добавления слово не будет считаться ошибкой, так как в словаре будет полное совпадение букв.
Проверка орфографии, через словарь, который использует набор правил.
Словарь, который использует набор правил - это документ в формате .txt, который содержит все слова, кроме склонений и спряжений. С помощью правил русского языка, проверяются все слова на правильность написания.
Такой словарь надо организовать так, чтобы были указаны все правила русского языка. Главное надо учесть исключения из правил.
Метод проверки орфографии, который использует набор правил, так же называется методом сохранения пространства. Такой метод, экономя пространство хранения, удерживают в словаре только стебли слов. Например, вместо слов «сомнения», «сомневался», «сомневаясь», в словаре хранится только слово «сомневаюсь», используя правила русского языка удаляя окончания, суффиксы, приставки или добавляя их, слова будут меняться до слова находящегося в словаре.
Второй способ это проверка орфографии без помощи словаря, который включает в себя проверку на заглавную букву в начале предложения, проверка на повторы и проверка с помощью сограмм.
Проверка на заглавную букву, т.е. каждая буква после точки должна автоматически становиться заглавной.
Проверка на повторы показывает, что пользователь написал два одинаковых слова подряд. Проверяются на совпадения все буквы одного слова с буквами другого слова, если же они полностью совпадают, то это является ошибкой. программный орфография словарь
Сограммами называется фиксированное сочетание букв, которое в русском языке встречается, в разных словах на разных позициях.
Проверить орфографию с помощью сограмм можно двумя способами. Первый способ проверки через сограммы это проверять через уже существую таблицу сограмм. Метод использует словарь косвенно. Проверка начинается с перехода в словарь или таблицу всех сограмм. Вооружившись таблицей сограмм, программа проверки орфографии делит текст на сограмм и ищет их в таблице, если попадаются сограммы, которые никогда не имели место в словаре, слово, которое содержит эту сограмму, является опечаткой. Этот способ содержит таблицу, заполненную всеми сограммами. И при анализе текста, происходит поиск сограмм в таблице, если совпадения нет, то слово является опечаткой.
И способ анализа текста на похожие сограммы. Программа делит текст на сограммы, и сама создает таблицу из всех сограмм встречающихся в тексте, отметив как часто каждая сограмма встречается в тексте. Затем программа анализирует текст еще раз и выявляет индекс особенности каждого слова, потому на сколько сограмм разделено слово и сколько раз эти сограммы встречаются в тексте. После расчета индекса, программа обращает внимание пользователя на слова с высоким индексом особенности. Такой метод более подходит для выявления опечаток в тексте.
Существуют ошибки в режиме реального слова, к таким ошибкам в большинстве случаев относятся имена собственные и неизвестные слова. Частоту этих ложных ошибок можно уменьшить, имея большой словарь или специализированный словарь именно для этого текста. Так же избежать таких ошибок можно добавлением неизвестных слов и имен собственных в словарь, с помощью дополнительной функции «Добавить слово в словарь».
Существует множество методов и алгоритмов проверки орфографии текстовых документов. Каждый из них подходит для проверки текста, но они имеют недостатки. Для более точной проверки подходит метод, в котором нужно объединить несколько алгоритмов проверки орфографии.
Библиографический список
1. Такташкин Д.В., Масенко И.А. Модель вариантов использования программы для писателей «Сюжет» // Современные научные исследования и инновации. 2016. № 3 [Электронный ресурс]. URL:http://web.snauka.ru/issues/2016/03/64882 (дата обращения: 28.05.2016)
2. Поваляев Е. Системы проверки орфографии [Электронный ресурс] . URL:http://compress.ru/article.aspx?id=9511 (дата обращения: 05.11.2015).
Размещено на Allbest.ru
...Подобные документы
Способы использования математических методов для решения задач и выбор оптимального алгоритма для расстановки переносов в словах по правилам русской орфографии. Сущность, принципы и описание метода решения "каретка". Листинг и тестирование программы.
курсовая работа [273,9 K], добавлен 28.07.2009Классификация текстовых редакторов и процессоров. Способы хранения текста в файле. Форматирование документа и его редактирование. Среда текстового редактора. Автоматическая проверка орфографии и синтаксиса текста, автотекст, автозамена, гипертекст.
курсовая работа [35,0 K], добавлен 25.04.2013История развития компьютерного анализа текста на естественном языке; выделение его проблем. Принципы извлечения информации и обработки разговорной речи. Ознакомление с программными продуктами, реализующими машинный перевод и проверку орфографии.
реферат [371,0 K], добавлен 13.02.2011Анализ существующих решений в сфере программных продуктов проверки орфографии. Анализ правил русского языка, которые используются при машинном анализе текста. Разработка алгоритмов морфологического анализа. Алгоритм анализа слова на возможные ошибки.
дипломная работа [489,9 K], добавлен 27.10.2010Ознакомление с понятием и особенностями выдачи/приобретения лицензии на право использования программного обеспечения. Рассмотрение классификации лицензий и типов соглашений. Исследование основ деятельности собственника авторских прав в данной сфере.
презентация [118,7 K], добавлен 11.12.2014Классификация программ обработки текстовых документов. Общие принципы оформления издания. Правила набора текста. Системы распознавания текста (OCR). Комплекс программного обеспечения для настольных издательских систем. Примеры текстовых редакторов.
презентация [75,0 K], добавлен 13.08.2013Определение требований к программному обеспечению. Ознакомление с процессом проектирования интерфейса пользователя. Рассмотрение результатов обзора существующих информационных систем. Обоснование необходимости разработки программного обеспечения.
дипломная работа [1,1 M], добавлен 05.07.2017Классификация и возможности текстовых редакторов. Среда текстового редактора Microsoft Word 2003. Процесс редактирования текста, его копирование и перемещение. Проверка орфографии и синтаксиса, автотекст и автозамена. Пример гипертекстового документа.
курсовая работа [2,4 M], добавлен 25.04.2013Классификация и возможности текстовых редакторов, их основные элементы: рабочее поле, курсор, строка состояния и меню, полосы прокрутки, панель инструментов. Форматирование текста, проверка орфографии и синтаксиса. Создание гипертекстового документа.
курсовая работа [3,6 M], добавлен 27.04.2013Страницы сайтов как набор текстовых файлов, размеченных на языке HTML. Виды сайтов, их классификация. Характеристика сайта: статический или динамический. Проблема безопасности web-сайта. Исследование программного обеспечения и языков программирования.
дипломная работа [850,3 K], добавлен 11.01.2015Анализ существующих программных решений для обучения студентов и контроля их знаний. Обзор лингвопроцессорных средств и обоснование их выбора. Алгоритмы решения и проверки упражнений на именную часть русского языка. Применение правил преобразования.
курсовая работа [97,0 K], добавлен 29.01.2015Понятие программного обеспечения, вопросы его разработки и использования. Общая характеристика системного программного обеспечения и работа операционной системы. Специфика процесса управления разработкой программного обеспечения и его особенности.
курсовая работа [636,2 K], добавлен 23.08.2011Цели и задачи программной инженерии. Понятие программного обеспечения. Шесть принципов эффективного использования программного обеспечения. Виды программного обеспечения: общесистемное, сетевое и прикладное. Принципы построения программного обеспечения.
курсовая работа [30,4 K], добавлен 29.06.2010Структура заданного исходного файла и структуры данных, соответствующие данным файла. Подпрограмма проверки принадлежности текста к одной из шести кодовых таблиц. Алгоритмы перекодировки файла в cp1251. Алгоритм сортировки записей исходного файла.
курсовая работа [63,7 K], добавлен 12.12.2010Эксплуатация анализатора качества электроэнергии Satec PM175. Создание документов "Видение" и "Спецификация требований" для системы сбора данных с анализатора. Проектирование серверного и клиентского приложения в среде программного обеспечения LabVIEW.
курсовая работа [830,6 K], добавлен 25.09.2013Разработка и реализация программного комплекса для обеспечения возможности проведения тестирования в образовательной среде. Разработка структура системы, базы данных, алгоритмов, интерфейса пользователя. Технико-экономическое обоснование проекта.
дипломная работа [3,3 M], добавлен 03.09.2012Ознакомление с процессом запуска программы "1С: Предприятие 8.3". Исследование порядка создания новой информационной базы и основных принципов работы с программой. Рассмотрение и характеристика особенностей оформления кассовых и банковских документов.
отчет по практике [2,8 M], добавлен 17.02.2018Характеристика средств обработки текстовой информации, способы редактирования и форматирования документов. Порядок создания списков и таблиц, проверка орфографии и синтаксиса текста. Выбор формата файла. Работа в табличном процессоре Microsoft Excel.
курсовая работа [411,1 K], добавлен 27.04.2013Характеристика основных функций и состава программного обеспечения. Понятие компьютерной программы и операционной системы. Система и языки программирования. Утилиты - программные средства контроля ПК, используемые для проверки его работоспособности.
презентация [481,3 K], добавлен 29.11.2012Известные проблемы совместимости приложений. Обслуживание, тестовые проверки и настройка программного обеспечения для создания резервных копирований Exiland Backup. Список задач обслуживания. Выбор, настройка и работа CRM-системы. Работа с CRM Мегаплан.
дипломная работа [1,9 M], добавлен 11.07.2015