Семантический анализатор для выделения фактов из текстовых сообщений
Описание процесса разработки эффективного алгоритма семантического и синтаксического анализа текстовой информации для выделения фактов и программного комплекса, работающего на его основе. Методика анализа данных на основе концепции Ensemble Learning.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 30.04.2018 |
Размер файла | 20,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ФГБОУ ВО «МГУ им. Н. П. Огарева»
СЕМАНТИЧЕСКИЙ АНАЛИЗАТОР ДЛЯ ВЫДЕЛЕНИЯ ФАКТОВ ИЗ ТЕКСТОВЫХ СООБЩЕНИЙ
Ладанова Е.О., Ямашкин С.А.
Аннотация
семантический синтаксический текстовый программный
В статье приведено описание процесса разработки эффективного алгоритма семантического и синтаксического анализа текстовой информации для выделения фактов и программного комплекса, работающего на его основе. Научно-технический продукт, о котором говорится в статье, планируется использовать для решения ряда функциональных задач в области анализа текстовой информации и извлечения фактов. В рамках описываемого исследования будет создана методика анализа данных на основе концепции Ensemble Learning.
Ключевые слова: Ensemble Learning, анализ текста, семантический анализ.
Abstract
SEMANTIC ANALYZER FOR THE SELECTION OF FACTS FROM TEXT MESSAGES
The article describes the process of developing an effective algorithm for the semantic and syntactic analysis of textual information for the identification of facts and a software complex running on its basis. The scientific and technical product mentioned in the article is planned to be used to solve a number of functional problems in the field of analyzing textual information and extracting facts. Data analysis methodology based on the Ensemble Learning concept will be created as a part of this study.
Keywords: Ensemble Learning, text analysis, semantic analysis.
Основная часть
Целью данной статьи является описание процесса разработки эффективного алгоритма семантического анализа текстовой информации для выделения фактов и программного комплекса, работающего на его основе. Программный комплекс позволит предоставлять услугу семантического анализа текста через графический и REST API интерфейсы по гибкой модели монетизации.
Семантический анализ текста в последние годы получил значительную актуальность. Развитие информационных ресурсов сети Internet многократно усилило проблему информационной перегрузки. Еще в начале XXI века количество страниц в сети Internet превысило 4 миллиарда, и с каждым днем оно увеличивается на 7 миллионов. Неструктурированные данные составляют большую часть информации, с которой имеют дело пользователи, поэтому многие организации и частные лица, в частности, владельцы ГИС-ресурсов [4], [5], [6], [7], [8], заинтересованы в эффективных технологиях автоматизированного семантического анализа текстовой информации, представленной на естественном языке.
На международном рынке в данный момент существует множество программных продуктов, которые позволяют проанализировать текст с точки зрения семантики. Среди отечественных стоит выделить АОТ и Semantic Analyzer Group, позволяющие строить синтактико-семантическую сеть текста. Из зарубежных - мощный инструмент анализа текстов IBM Text Miner, содержащий утилиты классификации, кластеризации, поиска ключевых слов и составления аннотации текстов. Российская система Яндекс Новости позволяет автоматически группировать данные в новостные сюжеты и составлять аннотации статей на основе кластера документов. Сервис InfoStream обеспечивает доступ к оперативной информации с учетом семантической близости документов. Также одним из аналогов системы является мобильный агрегатор Summly, купленный в марте 2013 компанией года Yahoo!, однако данное приложение абсолютно неприменимо для обработки текстов на русском языке.
Таким образом, существующие на сегодняшний день программные системы полностью не решают поставленную проблему. Объяснением этого является сложность и неоднозначность решения задачи семантического анализа для различного вида текстов. Разрабатываемое решение призвано устранить недостатки существующих систем. Основная идея заключается в разработке нового подхода к обработке текстов, основанного на методологии Ensemble Learning.
Научно-технический продукт будет успешно использован для решения следующих функциональных задач:
- каталогизация новостей;
- геопривязка событий по неструктурированному описанию;
- эффективная фильтрация спама и нежелательного контента;
- детектирование террористических переписок;
- сбор и составление статистики;
- любое другое выделение информации из больших объемов текста.
Ключевыми потребители научно-технического продукта станут владельцы новостных ресурсов и сайтов-агрегаторов, ФСБ и ФСО, архивы и библиотеки, разработчики ПО, которые заинтересованы в использовании создаваемого компонента по API. Реализация проекта предполагает получение результатов, которые характеризуются научной новизной:
- будет создана новая методика автоматического семантико-синтаксического анализа текстовой информации, включающая оптимальный алгоритм [2], [9], [10] формирования деревьев синтаксического разбора и онтологического анализа, позволяющая значительно повысить полноту и точность в сравнении с существующими реализациями за счет внедрения компонентов обучаемости на основе методологии Ensemble Learning.
- будут сформированы новые полные онтологические модели [1] различных предметных областей и моделей правил извлечения грамматики и генерации утверждений, основанных на коммуникативной грамматике русского языка. Внедрение компонента автоматизированного поиска шаблонов правил на основе цепей Маркова.
- на основе научных положений программной инженерии планируется создать информационную веб-систему, которая обладает удобным адаптивным графическим интерфейсом, программными REST API интерфейсами и сделает возможным получение услуги семантического анализа и извлечения фактов по модели SaaS [3].
Результатом научно-исследовательской работы будут являться алгоритм семантического анализа текста, построенный на принципах универсальности, модифицируемости и расширяемости и программный продукт, основанный на работе алгоритма. Особенности программного продукта: предоставление сервиса семантического анализа по модели Software as a Service; оплата работы ПО по временным периодам или задействованным ресурсам; удобный веб-интерфейс; гибкая настройка параметров анализа; сохранение и экспорт результатов семантического анализа. расширение возможностей продукта через загрузку собственных словарей. Качественные характеристики: удобство внедрения и использования алгоритма сторонними разработчиками; качество сопроводительной документации (мануалы); гибкость модель монетизации. Количественные характеристики: абсолютная и относительная точность фильтрации и каталогизации сообщений; показатель доли ошибочно выделенных фактов; быстродействие алгоритма.
Конкурентным преимуществом предлагаемого решения будет сочетание следующих характеристик: повышенная точность выделения фактов, достижение которой возможно благодаря эффективному применению описанных методик; гибкость настройки параметров функционирования алгоритма и легкость использования программного решения, не требующего наличия специальных навыков; возможность автоматизированного анализа больших информационных массивов и составления статистики; представление результатов анализа и их экспорт в удобном, гибко настраиваемом формате; предоставление удобных REST API интерфейсов для обеспечение удобной интеграции решения со сторонними разработками; эффективная модель монетизации с оплатой по времени использования, количеству вызовов, числу используемых компонентов.
План реализации проекта включает следующие этапы:
- проведение обзора литературных источников и изучения отечественного и зарубежного опыта в области вопросов семантического анализа текстов;
- первый этап разработки методики анализа текстовой информации для выделения фактов, формирование синтаксических и семантических словарей;
- реализация созданной методики в виде комплекса программ;
- тестирование разработанного комплекса программ и апробация эффективности предлагаемого решения при анализе больших объемов данных;
- доработка на базе экспериментальных данных методики анализа текстовой информации для выделения фактов, формирование более полных словарей.
- развитие программного комплекса через внедрение веб-интерфейсов. Результат - web-система, способная предоставлять услугу анализа текста по модели SaaS.
В ходе работ над проектом будут получены научные и технические решения, которые характеризуются новизной и требуют патентной защиты: новая методика синтаксического и семантического анализа текстовой информации для выделения фактов; программный продукт, реализованный на базе созданной методики с использованием современных методов и средств программного инжиниринга; база данных лексических, синтаксических и семантических конструкций и словарей, позволяющих эффективно выделять сущности и факты из текста.
Список литературы
1. Афонин В. В. Методы моделирования и оптимизации с примерами на языке С/С++ и MATLAB. Том. Часть 1. Методы моделирования / В. В. Афонин, В. В. Никулин. Саранск: ИП Афанасьев Вячеслав Сергеевич, 2017. 188 c.
2. Афонин В. В. Методы моделирования и оптимизации с примерами на языке С/С++ и MATLAB. Том. Часть II. Методы безусловной оптимизации / В. В. Афонин, В. В. Никулин. Саранск: ИП Афанасьев Вячеслав Сергеевич, 2017. 232 c.
3. Егунова А. И. Проектирование развивающего сайта молодёжных квестов / А. И. Егунова, Е. О. Ладанова, С. А. Ямашкин и др. // Образовательные технологии и общество. 2017. т. 20. №3. С. 292-298.
4. Ямашкин С. А. Гибридная система анализа данных дистанционного зондирования Земли / С. А. Ямашкин // Научно-технический вестник Поволжья. 2015. № 4. С. 173-175.
5. Федосин С. А. Технологический процесс решения задачи моделирования структуры землепользования на базе данных ДЗЗ / С. А. Федосин, С. А. Ямашкин // Науч.-техн. вестн. Поволжья. 2014. № 6. С. 356-358.
6. Вдовин С. М. Получение, хранение и распространение геоданных как единый информационный процесс / С. М. Вдовин, С. А. Федосин, А. А. Ямашкин, С. А. Ямашкин // Природные опасности: связь науки и практики: материалы II Международной науч.-практ. конф. / отв. ред. С. М. Вдовин. Саранск, 2015. С. 82-90.
7. Вдовин, С.М. Университетские геопорталы как инструмент решения экологических проблем / С.М. Вдовин, А.А. Ямашкин, С.А. Ямашкин // Экологические проблемы. Евразийское пространство. М., 2014. С. 552-567.
8. Ямашкин, С. А. Структура регионального геопортала, как инструмента публикации и распространения геопространственных данных / С. А. Ямашкин // Научно-технический вестник Поволжья. 2015. № 6. С. 223-225.
9. Афонин В.В. Моделирование систем / В.В. Афонин, С.А. Федосин. М.: Интуит, 2016. 231 c.
10. Афонин В.В., Методы моделирования и оптимизации с примерами на языке С/С++ и MATLAB. Ч. I. Методы моделирования. / В. В. Афонин, В. В. Никулин. Саранск, 2015.
Размещено на Allbest.ru
...Подобные документы
Фундамент синтаксического анализа. Словоизменительные морфологические средства. Структура системы синтаксического анализатора текста и используемая методика анализа текста. Графематический и фрагментационный анализ. Структура морфологического словаря.
курсовая работа [194,3 K], добавлен 24.06.2012Цветовая концептуализация мира на основе лингвистического анализа английских фразеологических единиц (идиом) с компонентом цвета. Обработка данных в семантическом, структурном, концептуальном, статистическом аспектах. Цветовая картина мира англичан.
курсовая работа [222,4 K], добавлен 10.06.2011Структура семантического поля, связь элементов в ней. Характеристика семантического поля запаха в немецком языке. Выявление лексических единиц, применяемых для обозначения запаха (на основе романа П. Зюскинда "Парфюмер"), элементы периферии ближней зоны.
курсовая работа [48,8 K], добавлен 28.05.2016Грамматическое деление всего лексического состава языка в основе вопроса о частях речи. Классификации частей речи в русском и английском языках, проведение их сравнительного анализа. Типологические критерии, существующие для сопоставления частей речи.
курсовая работа [68,6 K], добавлен 28.10.2016Основа смыслового выделения. Актуальное членение предложения. Интонация, синтаксические и лексические средства как основные средства смыслового выражения, их характеристика. Особенности передачи французских средств смыслового выделения в русском переводе.
дипломная работа [129,5 K], добавлен 13.05.2009Фразеологизм как основная единица фразеологии, его разновидности и общая характеристика, направления анализа. Понятие и порядок формирования семантического поля, структурное описание его основных единиц на примере поля "деньги" в английском языке.
курсовая работа [53,0 K], добавлен 08.06.2014Понятие языковой личности в отечественной лингвистике, уровни ее анализа. Категория комического дискурса как объекта лингвистического исследования. Характеристика вербально-семантического уровня языковой личности шута в поэме Шекспира "Король Лир".
курсовая работа [55,7 K], добавлен 25.01.2011Основные трактовки понятия "текст". Проблема выделения текстовых типов. Теория функциональных стилей при учете коммуникативно-прагматических условий текстообразования. Смысловые отношения между предложениями, а также текст и речевая деятельность.
реферат [24,3 K], добавлен 25.06.2013Системные отношения между лексемами. Организация семантического поля как упорядоченного поля наименований и лексики в виде парадигматических и синтагматических семантических полей. Структура семантического поля. Семантическая структура терминов родства.
реферат [88,5 K], добавлен 15.05.2014Системный подход в лингвистике. Семантическое поле и его основные характеристики. Понятие добра и зла как объектов лингвистического исследования. Изучение семантики добра и зла на материале русского языка. Структура семантического поля "добро/зло".
курсовая работа [67,0 K], добавлен 31.10.2011Исследование фразеологической системы современного немецкого языка. Изучение основных видов и целей рекламы. Характеристика рекламы как вида особого текста. Лексико-семантический анализ фразеологических единиц в немецкоязычных текстах рекламы автомобилей.
дипломная работа [64,3 K], добавлен 29.10.2015Структурированная система методов лингвокультурологического анализа, приведенная Г. Алимжановой. Методика доминантного анализа. Метод сжатия конкорданса, предполагающий учет всех употреблений анализируемого слова в пределах определенного корпуса текстов.
доклад [28,7 K], добавлен 03.06.2014Формальная и семантическая реконструкция праязыка. Методы реконструкции в хронологическом порядке их появления и специфике применения. Восстановление лексемы "волк" на основе сопоставления нескольких индоевропейских языков. Роль волков в истории культуры.
дипломная работа [65,6 K], добавлен 06.07.2012Исследование классификации обращений в корейском языкознании. Изучение принципов общения и взаимоотношений в корейском обществе. Разработка концепции ситуативно-семантического словаря корейских этикетных обращений. Стили устного общения корейского языка.
реферат [46,5 K], добавлен 06.05.2013Анализ теории семантического поля, типологические свойства: взаимосвязь элементов, регулярный характер связей между элементами. Сущность семантического поля "посуда" в современном русском языке. Особенности организации группировки языковых элементов.
курсовая работа [62,4 K], добавлен 24.05.2012Principles of learning and language learning. Components of communicative competence. Differences between children and adults in language learning. The Direct Method as an important method of teaching speaking. Giving motivation to learn a language.
курсовая работа [66,2 K], добавлен 22.12.2011История развития фразеологии как науки. Определение и критерии выделения фразеологических единиц. Структурно-семантическая характеристика фразеологических единиц с семой-зоонимом. Семантические особенности фразеологических единиц, их классификация.
курсовая работа [127,4 K], добавлен 17.04.2011Понятие и специфика семантического поля цвета. Ассоциации, связанные с цветами в языковом сознании. Сопоставление семантического поля цвета в русском и английском языках. Исследование семантических полей розового, коричневого, голубого и серого цветов.
курсовая работа [40,6 K], добавлен 05.07.2015Проблема дефиниции предложения. Синтаксический, семантический и прагматический аспекты предложения. Сложности выделения членов предложения. Необходимые и достаточные пределы внутреннего деления членов предложения. Типы сказуемых и способы его выражения.
дипломная работа [91,2 K], добавлен 01.06.2012Понятие феномена "решение" в психологии и лингвистике. Основные ориентиры для принятия решения. Понятие лексико-семантического поля в английском языке. Соотношение феноменов "решение" и "выбор". Ближняя периферия лексико-семантического поля "Decision".
курсовая работа [85,9 K], добавлен 18.06.2012