Исследование морфологических анализаторов информационно-поисковых систем

Обзор морфологических анализаторов текста, с помощью которых можно определить квантитативные характеристики текста. Особенности применения морфологических анализаторов, преимущества и недостатки. Авторство текста как квантитативная характеристика текста.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 31.07.2018
Размер файла 70,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Волжский политехнический институт (филиал) ФГБОУ ВПО «Волгоградский государственный технический университет»

Исследование морфологических анализаторов информационно-поисковых систем

Технические науки

Логинов Эмиль Витальевич, студент

Рыбанов Александр Александрович, кандидат наук, доцент, заведующий кафедрой

Статья содержит обзор морфологических анализаторов текста, с помощью которых можно определить квантитативные характеристики текста. Описаны особенности применения морфологических анализаторов, отмечены преимущества и недостатки.

Квантитативные характеристики текста являются исходными для решения следующих задач: определение авторства текста; определение жанра и стиля текста, выделение языка специальности по текстам [2, 7, 9, 10].

Точность расчета квантитативных характеристик текстов влияет на погрешность при решении данных задач [3, 4, 6]. Процесс вычисления квантитативных характеристик текста необходимо автоматизировать из-за трудозатратности и времязатратности [8, 11, 12], но морфологизаторы, используемые в качестве модулей определения исходных квантитативных характеристик, обладают своим процентом ошибочности.

Проведем сравнительный анализ морфологизаторов Mystem и PHPMorphy [1].

Mystem [5]- бесплатно распространяемый морфологический анализатор русского языка для некоммерческого использования от компании Яндекс. Морфологический анализатор работает как отдельное приложение написанное на языке C. Программа работает с текстовыми файлами, откуда берется информация для морфологизации, или со стандартным вводом/выводом слов. Морфологический анализатор показывает все возможные формы изначальных слов.

PHPMorphy - бесплатно распространяемая библиотека морфологического анализа, реализованная на платформе PHP. PHPMorphy позволяет решать следующие задачи:

· Лемматизация (получение нормальной формы слова);

· Получение всех форм слова;

· Получение грамматической информации для слова (часть речи, падеж, спряжение и т.д.);

· Изменение формы слова в соответствии с заданными грамматическими характеристиками;

· Изменение формы слова по заданному образцу.

Поддерживаемые языки: Русский, Английский, Немецкий (AOT). Украинский, Эстонский (на основе ispell). Есть возможность добавить поддержку других языков при помощи myspell словаря.

Поддерживаются различные кодировки: все однобайтовые (windows-1251, iso-8859-* и т.п.); Unicode кодировки - utf-8, utf-16le/be, utf-32, ucs2, ucs4.

Для достижения поставленной цели был проведен следующий эксперимент: на вход морфологизаторов PHPmorphy и Mystem подавался один и тот же текст. Результаты эксперимента приведены в таблице 1.

Таблица 1. Квантитативные характеристики текста

Часть речи

phpMorphy

MyStem

Однозначная

интерпретация

Неоднозначная

интерпретация

Однозначная

интерпретация

Неоднозначная

интерпретация

Глаголов

8

4

9

5

существительных

13

3

10

11

прилагательных

8

2

6

3

наречий

0

1

0

1

предлогов

9

0

4

5

Союз

0

3

0

3

Частиц

0

1

0

5

местоимений

2

2

2

2

МС-П

1

2

1

2

междометий

0

3

0

3

числительных

1

0

1

0

предикативов (композит)

0

0

0

0

Сравнительный анализ результатов эксперимента (рис. 1-2) показал, что неоднозначностей, при автоматизированном определении части речи, больше возникает при использовании морфологизатора mystem.

Рис. 1. Однозначная интерпретация части речи.

Рис. 2. Неоднозначная интерпретация части речи

квантитативный текст морфологический

По результатам эксперимента, можно сделать следующий вывод: для автоматизированного определения квантитативных параметров, в качестве модуля определения частей речи, рекомендуется использование морфологизатора PHPMorphy.

Список литературы

1. Mehler A., M. Santini, and S. Sharoff. Riding the Rough Waves of Genre on the Web. Concepts and Research Questions // Genres on the web: Computational models and empirical studies / A. Mehler, S. Sharoff, and M. Santini, Text, Speech and Language Technology. Dordrecht: Springer. 2010

2. Кожина, М. Н. Речеведение и функциональная стилистика: вопросы теории / М. Н. Кожина. -- Пермь, 2002. -- 475 с.

3. Макушкина Л.А., Рыбанов А.А. Оценка качества структурирования учебного материала на основе метрик онтологических моделей // Известия Волгоградского государственного технического университета. 2014. Т. 11. № 14 (141). С. 86-89.

4. Макушкина Л.А., Рыбанов А.А., Приходько Е.А. Электронный учебник как знаковое средство построения и организации обучения // Известия Волгоградского государственного технического университета. 2009. Т. 6. № 10 (58). С. 98-100.

5. Морфологический анализатор текста на русском языке mystem [Электронный ресурс]; // Компания Яндекс [сайт] -- 2003-2013. -- URL: http://company.yandex.ru/technologies/mystem/

6. Рыбанов А.A. Анализ качества квантования учебного текста // Педагогические измерения. 2014. №1. С. 3-16.

7. Рыбанов А.A. Количественные метрики для оценки качества квантования учебной информации // Педагогические измерения. 2013. № 4. С. 3-12.

8. Рыбанов А.А. Автоматизированное определение квантитативных характеристик текста // Современные научные исследования и инновации. 2014. № 2 (34). С. 5.

9. Рыбанов А.А. Квантование учебной информации как средство повышения качества контента в системах дистанционного обучения // Дистанционное и виртуальное обучение. 2014. № 7 (85). С. 4-21.

10. Рыбанов А.А. Квантование учебной информации как средство повышения качества учебного материала // Известия Волгоградского государственного технического университета. 2014. Т. 12. № 15 (142). С. 28-30.

11. Рыбанов А.А. Оценка качества текстов электронных средств обучения // Школьные технологии. 2011. № 6. С. 172-174.

12. Рыбанов А.А. Подходы к анализу качества текста пояснительной записки выпускной квалификационной работы // Известия Волгоградского государственного технического университета. 2011. Т. 8. № 10 (83). С. 113-116.

Размещено на Allbest.ru

...

Подобные документы

  • Изучение особенностей процесса редактирования, в который входит проверка и обработка текста. Описания правки лексических, морфологических и синтаксических ошибок. Характеристика литературного оформления рукописи. Прогноз воздействия текста на аудиторию.

    реферат [25,9 K], добавлен 17.06.2012

  • Структура текста, морфологический уровень. Исследование текста с лингвистической точки зрения. Прямонаправленная и непрямонаправленная связность текста. Важность морфологического уровня текста в понимании структуры текста и для понимания интенции автора.

    реферат [30,4 K], добавлен 05.01.2013

  • Понятие текста в концепциях лингвистов и психолингвистов, его основные характеристики, свойства и функции. Подходы к его описанию. Природа и процесс порождения текста. Механизмы и особенности его восприятия на примере анализа художественного произведения.

    курсовая работа [47,8 K], добавлен 15.01.2014

  • Теоретические основы изучения текста. Разграничение текста и дискурса. Понятие текста и подходы к его анализу. Употребление терминов texte и discours во французском языке. Сравнительно-сопоставительное исследование текста астрологического прогноза.

    дипломная работа [204,5 K], добавлен 03.07.2009

  • Современные подходы интерпретации анализа художественно-прозаического текста с учетом его специфики, базовых категорий и понятий. Рассмотрение художественного текста как единства содержания и формы. Практический анализ текста "A Wicked Woman" Дж. Лондона.

    курсовая работа [48,5 K], добавлен 16.02.2011

  • Англоязычные тексты инструкций, контрактов и рекламные тексты, их типологические характеристики. Коммуникативное задание текста, источник текста, получатель текста, тип информации (когнитивная, эмоциональная, эстетическая) и доминанты перевода.

    учебное пособие [1,8 M], добавлен 12.12.2010

  • История отечественного терминоведения. Выявление лексических и семантических особенностей специального текста для применения этих знаний в практике моделирования семантики специального текста. Требования к терминам, их анализ. Понятие фоновой лексики.

    курсовая работа [106,3 K], добавлен 14.11.2009

  • Лингвостилистические особенности эпистолярного текста. Приемы реорганизации субъектной структуры текста письма при переводе с английского языка на русский. Анализ писем с точки зрения лингвистических и коммуникативно-прагматических особенностей.

    дипломная работа [97,5 K], добавлен 29.07.2017

  • Выделение единиц перевода на уровне фонем, графем, морфем, слов, словосочетаний, предложений и текста. Выявление текстовой функции исходной единицы перевода. Пространственно-временные и причинно-следственные характеристики словесного состава текста.

    презентация [38,7 K], добавлен 29.07.2013

  • Исследование языковых норм деловой письменной речи. Анализ лексико-фразеологических, морфологических, синтаксических особенностей функционального стиля. Правила композиции документа и связности текста. Особенности фразеологии в деловой коммуникации.

    реферат [79,6 K], добавлен 26.12.2010

  • Разновидности структуры текста. Основные правила написания введения, основной части и заключения. Выбор названия и заголовков. Логичность текста, правильная организация его частей, связность предложений между собой. Простые и сложные предложения.

    презентация [55,2 K], добавлен 23.11.2015

  • Понятие перевода как текста. Содержательная структура текста их переводческая типология. Ценность информации и сообщения. Формальные и смысловые связи между высказываниями. Последовательность и связность изложения. Формальная связность текста.

    презентация [44,7 K], добавлен 29.07.2013

  • Понятие и специфика композиции, сферы применения данного термина. Композиционная структура текста документа. Требования к композиции документа и порядок ее формирования, сущность рубрикации. Правила разбивки текста. Варианты организации текста письма.

    контрольная работа [36,8 K], добавлен 15.10.2010

  • Герменевтические принципы и категории исследования текста в лингвистике. Система отношений автор-текст-читатель. Прецедентные структуры языка как способы выражения скрытых смыслов у И.А. Бунина. Пространственно-временной континуум художественного текста.

    дипломная работа [104,7 K], добавлен 18.07.2014

  • Порядок логического построения текста – синтаксической единицы с последовательностью предложений. Анализ классификации текста, отличающейся по форме материала (устный, письменный), по социальному предназначению (учебные, научные, художественные, деловые).

    творческая работа [15,9 K], добавлен 27.03.2010

  • Использование переводческих трансформаций при переводе английского исторического текста. Лингвистические проблемы перевода. Стилистический разбор текста. Особенности лексического, семантического и синтаксического устройства художественного текста.

    курсовая работа [57,4 K], добавлен 18.05.2016

  • Работа с текстом на английском языке. Чтение и устный перевод текста, усправление неверных утверждений. Ответы на вопросы по содержанию текста. Образование словосочетаний, обозначающих методы тестирования и оценки, используемые при отборе кандидатов.

    контрольная работа [20,9 K], добавлен 08.03.2015

  • Понятие текста в лингвистике. Стенограмма гуманитарного мышления. Понятие дискурса в современной лингвистике. Особенности создания лингвистики текста. Анализ дискурса как метод анализа связной речи или письма. Область исследования текстоведения.

    реферат [24,6 K], добавлен 29.09.2009

  • Характеристика стилистических особенностей художественного текста. Стиль детской литературы. Приемы перевода художественного текста для придания эмоционального эффекта. Эмоциональная выразительность языка перевода произведения "Винни Пух и все-все-все".

    курсовая работа [87,2 K], добавлен 24.10.2014

  • Характеристика текста транспортной тематики, его лексико-грамматические особенности. Специфика перевода терминов транспортной, технической и юридической сфер. Предпереводческий анализ, решения при переводе представленного текста транспортной тематики.

    курсовая работа [67,7 K], добавлен 29.12.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.