Автоматический анализ текстов. Синтаксический и семантический анализ
Создание описания языка для поисковых машин. Модули автоматического лингвистического анализа текстов. Токенизация и грамматический парсер. Характеристика лексикографических ресурсов. Построение синтаксического дерева предложения "Мама мыла раму".
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 09.06.2018 |
Размер файла | 45,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://allbest.ru
1
Институт Комплексной безопасности и специального приборостроения ИКБСП
Автоматический анализ текстов. Синтаксический и семантический анализ
Аношин Павел Игоревич, Магистрант,
Научный руководитель:
Капалин Владимир Иванович д.т.н. профессор
Россия, г. Москва
Автоматический анализ текста представляет собой операцию, которая из заданного текста на естественном языке извлекает грамматическую и семантическую информацию, содержащуюся в тексте. Автоматический анализ выполняется по некоторому алгоритму в соответствии с заранее разработанным описанием данного языка. Обратная операция называется автоматическим синтезом текста.
Автоматический анализ является одним из важнейших этапов в различных видах автоматической обработки текстов:
· автоматического реферирования;
· автоматического перевода;
· информационного поиска и т.п. [2].
Автоматический анализ не стоит путать с автоматическим исследованием текстов, в котором практически полностью отсутствуют данные о языке обрабатываемого текста, и обработка текста осуществляется алгоритмом с целью создания описания языка. В алгоритмах автоматического анализа, как правило, имеются сведения о языке (его «грамматика») и сведения о самом процессе анализа («механизм», т.е. алгоритм автоматического анализа).
Любая современная система анализа текста, в том числе поисковые машины, осуществляющие поиск документов в сети Интернет, содержит те или иные модули автоматического лингвистического анализа. Необходимыми этапами лингвистического анализа практически в любой современной системе являются:
· токенизация (разбиение на орфографические слова и выделение границ предложений);
· морфологический анализ (разбор слова как части речи).
Некоторые системы могут включать и иные модули:
· модуль синтаксического анализа (синтаксический парсер), главной задачей которого является представление предложения в качестве синтаксической структуры, такой как дерево зависимостей или дерево непосредственных составляющих или частичного синтаксического анализа, или модуль выделения отдельных словосочетаний внутри текста;
· модуль семантического анализа, устанавливающий семантические отношения между словами текста и объединяющий языковые выражения, которые относятся к одному и тому же понятию.
Семантический модуль не может работать без различного рода лексикографических ресурсов, таких как информационно-поисковые тезаурусы или лингвистические онтологии, модуль разрешения анафоры и т.д.
Как уже говорилось, целью синтаксического анализа является автоматическое построение дерева фразы, нахождение взаимозависимостей между разными элементами предложения. Если функциональное дерево фразы успешно построено, то из предложения можно выделить смысловые элементы, такие как: логический субъект, логический предикат, прямые и косвенные дополнения, а также различные виды обстоятельств [5].
Пример синтаксического дерево предложения «Мама мыла раму» в упрощенном графическом виде, изображен на рисунке 1:
Рисунок 1. Синтаксическое дерево предложения «Мама мыла раму»
Зная структуру предложения, можно сделать достаточно глубокий анализ и в дальнейшем использовать это на практике, например, создать систему автоматического перевода. В упрощенном виде это будет выглядеть так: выполнить каждого слова по словарю, а после сгенерировать новое предложение из синтаксического дерева.
Основной проблемой синтаксического анализа текста является разрешение неоднозначностей синтаксиса. Эта проблема решается двумя подходами: формально-графическим или вероятностно-статистическим. С помощью первого подхода создаются сложные системы правил, с помощью которых в каждом конкретном случае можно принимать решение в пользу какой-либо синтаксической структуры. Второй подход основан на сборе статистики встречаемости различных структур в похожих текстах, на основе которой затем происходит выбор варианта структуры [3].
Современные разработки в области синтаксического анализа имеют тенденцию к тому, что формально-грамматические методы анализа планомерно вытесняются методами, ориентирующимися на вероятностные оценки. Методы вероятностного характера однозначно не способны обеспечить полную точность анализа, но их результаты работы с реальными текстами показывают весьма удовлетворительные результаты для многих применений. Что касается затрат на разработку, то здесь однозначно выигрывают вероятностные анализаторы: стоимость разработки из значительно ниже, чем стоимость разработки структурных моделей естественного языка. лингвистический синтаксический язык парсер
Семантический (смысловой) анализ необходим для оценивания смысла передаваемой информации, соотношения ее с информацией, которая хранилась до появления обрабатываемой информации. Семантические связи между словами или другими единицами языка отражаются в семантических словарях.
Задачами семантического анализа являются:
· построение семантической интерпретации слов и конструкций;
· установление семантических отношений между различными элементами текста.
При семантическом анализе предложений используют падежные грамматики и семантические валентности, а семантика предложения задается через связи главного слова (глагола) с его семантическими актантами [1].
Основой семантического анализа является утверждение, что конкретное значение слова не является элементарной семантической единицей. Оно, в свою очередь, делится на более мелкие единицы -- единицы словаря семантического языка, являющиеся своеобразными атомами, комбинации которых складываются в «молекулы» -- значения слов естественного языка. Именно семантический анализ дает возможность решить проблемы многозначности (омонимии), которая часто возникает при автоматическом анализе на разных языковых уровнях.
Семантический анализ текста является одной из наиболее сложных проблем таких областей как искусственный интеллект и компьютерная лингвистика. Результаты семантического анализа текстов могут быть применены для решения задач диагностирования больных в психиатрии, предсказания результатов выборов в политологии. Однако, несмотря на свою востребованность, семантический анализ остается одной из сложнейших математических задач. Главная проблема заключается в том, как «научить» компьютер однозначно верно трактовать образы, которые пытался передать автор текста [4].
В заключении стоит отметить, что ценность автоматического анализа текста на данный момент особенно высока, поскольку человек уже не в состоянии самостоятельно обработать современные объемы информации. Автоматический анализ текста находит применение в самых различных сферах, таких как бизнес (автоматическая обработка и классификация документов), политология и социология (предсказание результатов выборов или будущих общественных волнений на основе записей пользователей в социальных сетях), филология (определение авторства произведений, авторского стиля), в экспертных системах, системах машинного перевода, поисковых системах, а также во многих других.
Список использованных источников
1. Барышникова Надежда Юрьевна Обработка запросов на естественном языке на основе семантических сетей и шаблонов // Вестник АГТУ. Серия: Управление, вычислительная техника и информатика. 2016. № 4. URL: http://cyberleninka.ru/article/n/obrabotka-zaprosov-naestestvennom-yazyke-na-osnove-semanticheskih-... (дата обращения: 11.06.2017).
2. Боярский К. К. Введение в компьютерную лингвистику. Учебное пособие. -- СПб: НИУ ИТМО, 2013. -- 72 с.
3. Кагиров Ильдар Амирович, Леонтьева Анастасия Борисовна Автоматический синтаксический анализ русских текстов на основе грамматики составляющих // Приборостроение. 2008. № 11. U R L : http://cyberleninka.ru/article/n/avtomaticheskiy-sintaksicheskiy-analiz-russkih-tekstov-naosnove-gr... (дата обращения: 11.06.2017).
4. Мочалова Анастасия Викторовна Алгоритм семантического анализа текста, основанный на базовых семантических шаблонах с удалением // Научно-технический вестник информационных технологий, механики и оптики. 2014. № 5 (93). URL: http://cyberleninka.ru/article/n/algoritm-semanticheskogo-analiza-teksta-osnovannyy-na-bazovyhseman... (дата обращения: 11.06.2017).
5. Чапайкина Н. Е. Семантический анализ текстов. Основные положения // Молодой ученый. -- 2012. -- № 5. -- С. 112-115.
Аннотация
Автоматический анализ текстов. Синтаксический и семантический анализ. Аношин Павел Игоревич, Магистрант ИКБСП, Россия, г. Москва. E-mail: pasha.a.505@gmail.com. Научный руководитель: Капалин Владимир Иванович д.т.н. профессор.
В данной статье рассматривается понятие «автоматический анализ текста», его применение на практике. Раскрываются такие составляющие автоматизированного анализа текста как синтаксический анализ, семантический анализ.
Ключевые слова: автоматический анализ текста, синтаксический анализ, семантический анализ, морфологический анализ.
Размещено на Allbest.ru
...Подобные документы
Теоретические и лингвистические основы описания трудов Л.В. Щербы, теоретические основы описания научных текстов в современной лингвистике. Своеобразие научных текстов, их синтаксический анализ. Словосочетание и простое предложение в трудах Л. Щербы.
дипломная работа [62,0 K], добавлен 25.02.2010Характеристика и классификация рекламных текстов, их лексические и синтаксические особенности. Сравнительный анализ англоязычных и русскоязычных рекламных текстов. Разработка урока в рамках темы "Mass Media" на основе проанализированных рекламных текстов.
дипломная работа [4,4 M], добавлен 14.02.2013Фундамент синтаксического анализа. Словоизменительные морфологические средства. Структура системы синтаксического анализатора текста и используемая методика анализа текста. Графематический и фрагментационный анализ. Структура морфологического словаря.
курсовая работа [194,3 K], добавлен 24.06.2012Понятия "содержание" и "форма" при переводе музыкально-поэтических текстов. Сопоставительный анализ текстов оригинала (подлинника) и перевода. Лексические и грамматические трансформации при переводе музыкально-поэтических текстов песен Джона Леннона.
дипломная работа [174,2 K], добавлен 09.07.2015Становление теории вторичных текстов (ВТ), их классификация. Понятие ВТ как построенного на основе текста-источника с другими прагматическими целями и в другой коммуникативной ситуации. Сохранение в ВТ элементов когнитивно-семантической структуры текста.
статья [37,4 K], добавлен 23.07.2013Факторы речевой организации текста. Характеристика текста как особой речевой единицы. Основные типы текстов. Построение текстов различных стилей. Особенности построения текстов в научном, публицистическом, официально-деловом и художественном стилях.
курсовая работа [46,9 K], добавлен 22.05.2015Изучение лексико-грамматических и стилистических особенностей перевода военных текстов. Текстуальные категории военных текстов. Выявление специфических приемов перевода, используемых для передачи текстов военного характера с английского языка на русский.
дипломная работа [94,1 K], добавлен 20.05.2015Черты научного стиля, которые отличают его от других стилей английского языка. Функции и признаки текстов научного стиля, их разновидности. Исследование основных лексических, грамматических и стилистических особенностей текстов английской научной речи.
курсовая работа [603,0 K], добавлен 21.04.2015Структурно-содержательные особенности медийных текстов. Характеристика современного медиадискурса. Анализ синтагматических и лингвостилистических особенностей корпуса текстов группы передовых редакторских статей в качественной и популярной прессе.
дипломная работа [76,6 K], добавлен 29.03.2016Характеристика общественно-политических текстов. Сущность безэквивалентной лексики. Распространение фразеологизмов. Лексические трансформации, анализ переводческих решений, используемых при переводе лексических единиц с корейского языка на русский.
курсовая работа [43,9 K], добавлен 26.03.2019Построение лексико-семантической и морфолого-синтаксической классификации бизнес-терминологии. Выявление специфики ее функционирования. Описание особенностей текстов, содержащих бизнес-терминологию. Выработка рекомендаций по редактированию текстов.
дипломная работа [44,9 K], добавлен 23.03.2015Категория побудительности в языковедении. Анализ особенностей предписывающих немецких текстов на примере рекламы. Изучение текстов директивно-регулятивного типа, их места в системе речевой коммуникации. Немецко-русский перевод предписывающих текстов.
курсовая работа [33,0 K], добавлен 10.04.2013Проблема дефиниции предложения. Синтаксический, семантический и прагматический аспекты предложения. Сложности выделения членов предложения. Необходимые и достаточные пределы внутреннего деления членов предложения. Типы сказуемых и способы его выражения.
дипломная работа [91,2 K], добавлен 01.06.2012Семантический потенциал слова город в словообразовательной и лексической системах русского языка. Содержание концепта "Москва" и "Петербург" в поэзии Серебряного века, отражающих представления носителей русской культуры о явлениях действительности.
дипломная работа [114,5 K], добавлен 26.02.2011Переводческая трансформация - процесс преобразования текста, через который проходит трансформация оригинала в перевод. Аналитизм и синтетизм – главные способы реализации грамматического строя языка. Основные элементы актуального членения предложения.
дипломная работа [43,6 K], добавлен 29.07.2017Основные характеристики технического текста. Лексико-грамматические особенности стиля технического текста. Перераспределение содержания, сопровождаемое изменением синтаксической структуры фразы. Анализ перевода инструкции к китайским телефонам.
курсовая работа [62,9 K], добавлен 17.04.2012Характеристика и классификация рекламных текстов, теоретические аспекты перевода. Лингво-переводческий анализ воспроизведения гендерных особенностей в англо-русском переводе, сопоставительная оценка переводов текстов, выявление адекватности их специфики.
курсовая работа [76,4 K], добавлен 21.06.2011Лексико-грамматические особенности перевода научно-технических текстов. Понятие "стиль" и требования, предъявляемые к научно–техническому стилю русского языка в англо–русском переводе. Эквивалентность и адекватность перевода научно–технических текстов.
дипломная работа [189,2 K], добавлен 26.02.2011Лексические и грамматические проблемы перевода научно-технических текстов, насыщенных специальными терминами и словосочетаниями. Атрибутивные конструкции как один из распространенных типов свободных словосочетаний в английских научно-технических текстах.
курсовая работа [78,0 K], добавлен 23.07.2015Практическая грамматика немецкого языка. Предложения с модальными глаголами, наречиями, местоимениями, предлогами. Вопросительные предложения. Сложные существительные. Особенности перевода текстов по правоведению с немецкого языка на русский.
контрольная работа [25,3 K], добавлен 18.05.2008