Проектирование и разработка системы с использованием парсинга предложений для работы с иностранной литературой

Анализ функциональной модели работы программного средства, предназначенного для работы с иностранной литературой. Исследование процедуры перевода текста. Использование парсера, который в графической форме представляет грамматические связи в предложении.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 30.04.2018
Размер файла 831,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Проектирование и разработка системы с использованием парсинга предложений для работы с иностранной литературой

Ващук И.Н. Кандидат педагогических наук

Яхницкий С. А. студент, Оренбургский государственный университет

Аннотация

В статье рассмотрено - проектирование и разработка системы с использованием парсинга предложений для работы с иностранной литературой, что определяется необходимостью оптимизации процесса чтения и перевода англоязычной литературы. В настоящее время существует несколько отдельных систем, которые либо обладают узкой областью применения, либо являются профессиональными средствами с высокой стоимостью. Разрабатываемая система предполагает объединение ключевых особенностей существующих продуктов в единой системе, что позволит, систематизировано и эффективно читать и переводить англоязычную литературу, повышать навык владения английским языком.

Ключевые слова: автоматизация, обработка текстов, синтаксические деревья.

In the article - the system design and development with parsing sentences to work with foreign literature, as determined by the need to optimize the reading and translation of English literature process. Currently, there are several separate systems that have a narrow field of application, either professional tools are of high value. The developed system involves pooling the key features of existing products in a single system that will allow, systematically and efficiently read and translate English-language literature, to improve English language skills.

Keywords: automation, word processing, syntactic trees.

В настоящее время в мире одним из важнейших ресурсов является информация, а крупнейшим её источником является всемирная сеть Интернет. Количество представленных сайтов в сети увеличилось с 10 миллионов в 2000 году до более чем одного миллиарда в 2014 году (по данным компании Netcraft).

Их большую часть, а именно 55% (по данным сайта W3Techs.com) составляют сайты на английском языке. Этот факт указывает на необходимость знания английского языка для современного человека.

Для людей, занимающихся научной деятельностью и/или программированием эта проблема ещё более актуальна, поскольку большинство научных статей международного уровня и большая часть пособий и документации по программированию издаются на английском языке.

Из всего вышеперечисленного следует, что необходимость оптимизации процесса чтения и перевода англоязычной литературы является актуальной проблемой.

Поэтому основным процессом, требующим автоматизации явилась необходимость обработки текстов на естественных языках, грамматика которых не приспособлена для их полной автоматизированной обработки (рис.1).

Рис. 1 - Функциональная модель работы программного средства

В настоящее время существует множество программных средств, предназначенных для различных аспектов работы с иностранной литературой. Но такое их разнообразие приводит к большим затратам времени для взаимодействия между ними. На рисунке 2 представлена процедура перевода текста. Хотя множество людей используют не все шаги и не в данной последовательности, схема довольно подробно покрывает данный процесс. На шагах 2, 4-8 используются различные программные средства.

Рис. 2 - Процедура перевода текста

На данный момент существует множество средств, облегчающих работу переводчика. Одной из проблем при переводе является понимание грамматической структуры предложения. Одним из решений является использование парсера, который в удобной графической форме представляет грамматические связи в предложении.

Парсер естественного языка - это программа, которая выражает грамматическую структуру предложений, например, какие слова идут вместе (как «фразы») и какие слова являются предметом или субъектом глагола. Вероятностные парсер используют знания языка, полученные из разобранных вручную предложений, для того чтобы получить наиболее вероятный анализ новых предложений. В таких парсерах всё ещё существует вероятность ошибки, но в общем случае качество анализа довольно высоко. Их разработка была одним из крупнейших прорывов в области обработки естественных языков в 1990-е годы.

Используемый парсер является реализацией вероятностного парсера естественного языка. Исходная версия данного парсера была преимущественно написана Дэном Клейном, с использованием кода и разработанной лингвистической грамматики Кристофера Маннинга.

Лексикализованный вероятностный парсер реализует факторизованную производную модель с отдельными анализаторами «PCFG» фразовой структуры и лексический зависимостей, которые совмещены для получения эффективного точного вывода с использованием А*-алгоритма.

Для графического вывода структуры предложений используется утилита «DependenSee», разработанная Аваисом Атаром.

Цель работы - создание программного средства в качестве основы для информационной системы, повышающей удобство и эффективность работы с иностранной литературой. Данная система будет объединять в себе преимущества следующих средств, используемых в процессе работы с иностранной литературой:

· ридер (электронная книга);

· парсер (структура предложений);

· электронный переводчик (механический);

· электронный словарь (фиксированный);

· онлайн словарь (пополняемый);

· поисковая система (похожие тексты);

· обучающая система (закрепление лексики).

При работе с программой все запросы на перевод пользователем сохраняются для формирования пользовательского словаря и дальнейшего использования в обучающей системе. Принцип формирования запросов на перевод ориентирован на оптимизацию количества запросов к серверу, схема представлена на рисунке 3. Запрос происходит иерархически, и если лексема отсутствует на нижнем уровне, то она запрашивается на более высоком, а затем сохраняется на всех подуровнях. Если же запрошенный перевод найден не был, то корректность запроса проверяется специализированным алгоритмом или вручную администратором сервера.

Рис. 3 - Алгоритм формирования запросов при переводе

программный парсер иностранный литература

Уникальной особенностью разрабатываемого приложения является использование парсера Стэндфордского университета для разбиения предложения на лексемы, распространяемого по свободной лицензии. Это позволит обеспечить перевод для произвольно выделенных фрагментов текста без утери их синтаксической структуры, что в свою очередь повышает качество перевода. Данная методика не автоматизирует процесс перевода, но способствует более глубокому пониманию структуры предложения пользователем. Общая схема модуля перевода теста представлена на рисунке 4.

Разрабатываемое программное средство является только основой для информационной системы работы с иностранной литературой, но планируется внедрение методов кластерного анализа для категоризации и поиска похожих текстов и обучающей системыв качестве модулей, что также является уникальной идеей, применительно к данной информационной системе.

Рис. 4 - Модуль отображения и перевода текста

Для проектирования программ было решено пользоваться методами объектно-ориентированного программирования (ООП), как наиболее удобными для проектирования программных комплексов с возможностью расширения их в будущем, из-за большой гибкости модификации и возможности оперирования со структурами данных как с некоторыми абстрактными объектами.

Основными качествами системы являются:

· простой и понятный интерфейс, ориентированный на непрофессионального пользователя;

· интеграция средств перевода в режим чтения текстов;

· редактирование и хранение результатов перевода;

· кроссплатформенность.

В результате была разработана система, состоящая из клиентского приложения, предназначенного для чтения текстов с возможностью перевода, и серверного приложения, служащего основой для расширения функционала. Клиентское приложение разработано на языках HTML5, CSS3, JavaScript в среде NW.js. Для клиентского приложения был использован Linux-сервер с использованием Node.js.

В соответствии с исходным заданием и проведённым обзором аналогов было решено хранить книги пользователя в персональной библиотеке, которая должна быть доступна с устройств на различных платформах. Все документы должны обладать легко редактируемыми настройками отображения. Программное средство должно активно задействовать интернет, но также иметь возможность работы офлайн. Должны применяться как машинный, так и словарно-лексемный подходы к переводу.

На данный момент разработана модель программного средства и создан прототип клиентского приложения. Приложение проходит апробацию на базе факультета филологии и журналистики Оренбургского государственного университета. Проект награждён дипломом второй степени на конкурсе «Университетская IT-весна 2015». На разработку системы Фондом содействия развития малых форм предприятий в научно-технической сфере выделен грант по программе УМНИК-2015.

Список литературы

1. Зубов А. В. Информационные технологии в лингвистике: М.: Академия 2004. - С.195-196.

2. Соловьева А. В. Профессиональный перевод с помощью компьютера: СПб.: Питер 2008. - С.140-147.

3. Шевчук В. Н. Электронные ресурсы переводчика: М.: Либрайт, 2010. - С.100-120.

4. Библиотека MSDN. Источник информации для разработчиков, использующих средства, продукты, технологии и службы корпорации Майкрософт. [Электронный ресурс]. - Режим доступа: http://msdn.microsoft.com

5. Машинный перевод: исторический обзор и преимущества [Электронный ресурс]: Компания ПРОМТ. -- Режим доступа: https://goo.gl/P7cleX

Размещено на Allbest.ru

...

Подобные документы

  • Терминологическая база для построения модели, имитирующей работу маршрутных микроавтобусов. Обоснование выбора программного средства. Алгоритм работы имитационной модели, особенности ее функционирования. Анализ результатов работы имитационной модели.

    курсовая работа [1,1 M], добавлен 29.04.2014

  • Разработка и анализ функциональной модели деятельности предприятия. Создание базы справочника. Использование трансферов для передачи данных между клиентом и сервером. Требования для работы приложения. Добавление, изменение, хранение и удаление данных.

    курсовая работа [396,4 K], добавлен 26.10.2014

  • Анализ функциональной структуры и обеспечивающей части АСУ. Проектирование функциональной структуры подсистемы управления проблемами, разработка модели в среде CPN Tools и алгоритма работы. Описание программного и технического обеспечения проекта.

    дипломная работа [5,6 M], добавлен 26.06.2011

  • Разработка имитационной модели функционирования кладовой на промышленном предприятии с использованием имитационного метода в среде GPSS World. Экспериментальное исследование результатов моделирования. Выработка предложений по оптимизации работы системы.

    курсовая работа [183,1 K], добавлен 27.08.2012

  • Анализ подходов к системе дистанционного образования. Разработка принципов и структуры программы для внеклассной работы школьников по информатике. Проектирование системы с использованием CASE-средств. Построение автоматизированной модели данных.

    дипломная работа [2,6 M], добавлен 27.10.2017

  • Построение схемы модели процесса и разработка анимации; определение характеристики модели с использованием AnyLogic. Сеть Петри для процесса работы порта. Описание программного продукта. Объекты библиотеки Enterprise Library. Результаты работы модели.

    курсовая работа [334,1 K], добавлен 25.04.2015

  • Разработка алгоритма автоматического создания отзывов на русском языке с использованием лексико-синтаксических шаблонов. Процесс создания текста при помощи цепей Маркова. Принцип работы Томита-парсера. Применение автоматических генераторов текстов.

    курсовая работа [150,6 K], добавлен 27.09.2016

  • Рассмотрение приемов разработки программных средств для автоматизированных систем обработки информации и управления. Разработка программного продукта, предназначенного для автоматизации работы заместителя директора по учебно-воспитательной работе.

    дипломная работа [1,7 M], добавлен 27.02.2015

  • Анализ подходов к концепции дистанционного образования. Разработка рейтинговой системы оценки внеклассной работы школьников. Проектирование программы с использованием CASE-средств. Реализация структуры интерфейса. Построение информационной модели данных.

    дипломная работа [2,4 M], добавлен 12.08.2017

  • Создание программного продукта, предназначенного для небольшой сети с оптимизацией ее работы на платформе операционной системы Linux; администрирование. Разработка модуля протоколов управления; методика тестирования подсистемы; системотехнический анализ.

    дипломная работа [5,4 M], добавлен 27.06.2012

  • Выбор, обоснование и особенности работы СУБД. Характеристика языков программирования. Разработка структурной и функциональной модели информационной системы аптеки. Проектирование программной среды АИС и ее интерфейса. Построение модели базы данных.

    курсовая работа [442,3 K], добавлен 21.04.2012

  • Оказание услуг по приему и обработке подписки. Разработка процессной модели работы подписного отдела. Построение модели с помощью средства имитационного моделирования Any Logic. Анализ влияния ключевых показателей на эффективность работы модели.

    курсовая работа [1,0 M], добавлен 05.12.2013

  • Описание, область применения и функциональное содержание "Галактика-ERP". Модули и их взаимосвязи в графической форме. Сценарий работы с пользователем; формирование требований к корпоративной информационной системе. Алгоритм работы (в виде блок-схемы).

    курсовая работа [2,0 M], добавлен 26.12.2014

  • Создание программного средства "Банк" для облегчения работы с клиентами. Разработка архитектуры (концепция, модель, структура, выполняемые функции и взаимодействие компонентов) приложения. Построение функциональной модели программы, ее интерфейс.

    курсовая работа [366,7 K], добавлен 24.01.2016

  • Средства организации блогов, разновидности CMS используемых для разработки и сопровождения блогов, их достоинства и недостатки. Общий алгоритм работы программного средства и алгоритмы работы с данными. Программное конструирование индивидуальных блогов.

    дипломная работа [3,6 M], добавлен 10.07.2012

  • Разбиение данных по таблицам и создание связей между таблицами. Нормализация и проектирование сценария работы базы данных. Выбор программного обеспечения. Требования к аппаратным и программным средствам для работы созданного программного продукта.

    курсовая работа [30,2 K], добавлен 23.01.2011

  • Разработка программного средства для поиска альтернативных решений многокритериальных задач. Проектирование программного средства с помощью объектно-ориентированного подхода. Пример листинга программного кода. Особенности работы программы на примере.

    контрольная работа [346,5 K], добавлен 11.06.2011

  • Анализ теоретических аспектов функциональной деятельности современного банкомата и его сценариев. Разработка программного обеспечения работы банкомата, включающее спецификацию вариантов использования "Аутентификация", "Запрос баланса" и "Снять деньги".

    контрольная работа [15,3 K], добавлен 18.01.2011

  • Анализ предметной области и требований пользователей для разработки программного средства по автоматизации работы склада строительных материалов. Описание работы с базой данных Access, позволяющей добавлять и редактировать информацию, оформлять накладную.

    курсовая работа [601,1 K], добавлен 25.01.2013

  • Механизм работы биологического нейрона и описание системы дифференциальных уравнений его работы. Алгоритм работы модели биологического нейрона, модель синапса. Элементы нейрологики с позиции аппаратной реализации и разработка программного комплекса.

    дипломная работа [1,7 M], добавлен 07.09.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.