Выделение ключевых слов текста научной статьи в процессе создания автоматического реферата
Процесс автоматического создания рефератов, который основан на компрессии исходного текста за счет выбора из него предложений с ключевыми словами. Выделение информативных лексических единиц на основе исследования текстов научных статей и рефератов.
Рубрика | Литература |
Вид | статья |
Язык | русский |
Дата добавления | 05.05.2021 |
Размер файла | 20,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Санкт-Петербургский государственный университет аэрокосмического приборостроения
Выделение ключевых слов текста научной статьи в процессе создания автоматического реферата
Е.Ю. Дубинина
Аннотация
В статье рассматриваются вопросы, возникающие в процессе автоматической обработки текста. В этой связи описывается процесс автоматического создания рефератов, который основан на компрессии исходного текста за счет выбора из него предложений с ключевыми словами. На основе сравнительного исследования корпуса текстов научных статей и рефератов осуществляется выделение наиболее информативных лексических единиц.
Ключевые слова; автоматическая обработка текста, автоматическое реферирование, именные группы, ключевые термины.
Abstract
The paper deals with the questions arising in the process of automatic text processing. Thereupon the process of automatic creation of abstracts is under consideration, the process is based on the compression of the source text due to selecting from it sentences with key words. On the basis of a comparative analysis of scientific articles and author's abstracts, the most informative lexical units are selected.
Keywords: automatic text processing, automatic summarization, noun phrases, key terms.
Основная часть
Появление огромных массивов данных, поступающих к человеку с высокой скоростью, вызывает необходимость создания соответствующих программных продуктов для их переработки. В этой связи важной задачей представляется повышение качества систем, осуществляющих автоматическую обработку текста, в частности, систем автоматического реферирования, которые позволяют создавать рефераты, отражающие наиболее важную текстовую информацию.
На сегодня большинство систем автоматического реферирования базируется на компрессии исходного текста за счет выбора из него предложений с ключевыми словами. В лингвистическом аспекте под ключевыми словами понимаются слова / словосочетания, которые являются носителями наиболее важной, существенной информации, содержащейся в тексте [1], [2].
Необходимо отметить, что ключевые слова имеют большое значение в системах научного обслуживания. В частности, они могут использоваться для идентификации и нахождения документов в информационно-поисковых системах. Кроме того, ключевые лексические единицы (ключевые термины) могут являться средством ориентации читателя в текстовом пространстве. Так, например, используя список ключевых слов к научной статье, читатель может подобрать те тексты, которые входят в сферу его исследования.
Помимо этого, ключевые слова используются в современных системах автореферирования. В большинстве таких систем реализуется следующая процедура: по заранее заданным признакам выделяются наиболее информативные слова, которые считаются ключевыми. Затем осуществляется выбор тех текстовых фрагментов (в основном, предложений), в которых присутствуют эти ключевые слова. Далее каждому информативному предложению присваивается определенный вес в зависимости от его длины и наличия в нем ключевых слов. На этой основе в реферат отбираются предложения с наиболее высоким весом [3], [4], [5].
Выделение ключевых слов можно производить и «вручную», но, учитывая постоянно растущие объемы текстовой информации - это очень трудоемкий процесс. Кроме того, сложно избежать некоторой субъективности при оценке значимости ключевых слов, так как стандарты для их выделения еще не разработаны [6], [7].
Сейчас существуют различные автоматические методы выделения и оценки значимости ключевых слов: статистические, позиционные, методы фреймового анализа, синтаксические [8], [9]. Однако, несмотря на существование большого количества методов, задача экстрагирования ключевых слов из текста и оценка их значимости еще не решена.
В данной работе выделение ключевых слов и оценка их значимости производится на базе сравнительного анализа корпуса текстов научных статей и их рефератов. В результате предварительного анализа было отобрано 100 текстов, принадлежащих англоязычным авторам из Австралии, Великобритании, Канады и США. Все тексты относятся к предметной области «Судостроение» и состоят из следующих элементов: заголовок, реферат и научная статья, в которой выделены вводная, основная и заключительная часть.
Для определения ключевых слов из созданного корпуса текстов заголовков и рефератов выделялись простые именные группы. Для их выделения составлялся словарь антипризнаков, или словарь стоп-слов, в который входила служебная лексика, а также слова с общим и общенаучным значением [10]. Эта лексика при дальнейшем анализе не учитывалась. Затем на основе оставшихся лексических единиц были отобраны простые именные группы, которые считались ключевыми терминами и использовались для дальнейшего исследования.
Эти ключевые термины анализировались относительно их использования авторами в научных статьях. В ходе исследования были сформированы таблицы. Так, например, составлялись таблицы, в которых указывались следующие данные: частота встречаемости ключевого термина в заголовке, реферате и в компонентах статьи (т.е. во вводной части, основной части и заключительной части). Пример таблицы представлен ниже (см. табл. 1). Подсчитывался также уровень распространенности каждого ключевого термина. Под уровнем распространенности понимается количество вхождений ключевого термина из заголовка и / или реферата в компоненты статьи. Этот показатель использовался для определения значимости ключевых терминов.
Кроме того, была сформирована таблица, в которой указывались количественные характеристики ключевых терминов в массиве текстов.
реферат лексический статья научный
Ключевые термины, выделенные при сопоставлении заголовка, реферата и научной статьи (фрагмент)
Ключевые термины |
Частота в компонентах статьи |
Общая частота |
Распространенность |
|||||
Заголовок |
Реферат |
Вводная часть |
Основная часть |
Заключительная часть |
||||
boundary integral equation |
2 |
2 |
1 |
1 |
6 |
4 |
||
direct potential method |
1 |
3 |
4 |
1 |
9 |
4 |
||
exciting forces |
1 |
1 |
3 |
2 |
7 |
4 |
||
fast hull forms |
1 |
1 |
1 |
|||||
hydrodynamic coefficients |
1 |
2 |
7 |
2 |
12 |
4 |
||
line integral terms |
1 |
2 |
3 |
17 |
3 |
26 |
4 |
|
source distribution method |
1 |
3 |
13 |
2 |
19 |
4 |
||
three-dimensional seakeeping characteristics |
1 |
1 |
1 |
|||||
water line integral terms |
1 |
1 |
2 |
2 |
Для того чтобы определить значимость выделенных ключевых терминов, в работе был использован такой показатель, как уровень распространенности. Как отмечалось выше, ключевыми терминами считались именные группы, выделенные как из заголовка, так и из реферата, поэтому эти компоненты статьи можно считать одинаково информативными. Исходя из этого, было принято, что, если ключевой термин расположен в заголовке и / или реферате, то уровень его распространенности равен 1. Если ключевой термин встречался помимо заголовка и / или реферата в каком-либо другом компоненте статьи (например, во вводной части), то уровень распространенности принимался равным 2.
Если этот же термин встречался во всех компонентах статьи (то есть в заголовке и / или реферате, вводной, основной и заключительной части), то ему присваивался уровень распространенности равный 4. Таким образом, максимальный уровень распространенности не может быть больше 4.
Исходя из вышесказанного, составленные таблицы анализировались относительно уровня распространенности ключевых терминов.
Анализ составленных таблиц показал, что ключевые термины, имеющие высокий уровень распространенности, являются в основном двух- и трехкомпонентными именными группами, характеризующими предметную область в целом. Например: boundary element method, hydrodynamic forces, model towing resistance.
Относительно частоты ключевых терминов никаких закономерностей обнаружить не удалось. В авторских рефератах использовались термины и с достаточно высокой частотой встречаемости (более 27), и низкой (равной 3 или 4). Таким образом, частота ключевого термина не является показателем его информативности, более важным является уровень его распространенности.
Кроме того, выделенные ключевые термины анализировались относительно их распределения по структурным разделам каждой статьи. При этом использовалось положение о рамочной конструкции текста. В соответствии с этим положением признаком информативности элемента текста является его пространственно-позиционная характеристика, то есть расположение в тексте. Исходя из вышеизложенного, было сделано предположение, что в тексте научной статьи высокоинформативными являются следующие элементы: заголовок, а также вводная и заключительная часть текста.
Для проверки этого предположения отдельно рассматривалась основная часть текста. Анализировались ключевые термины, которые встречались одновременно в заглавии, реферате и в основной части текста. Количественный анализ именных групп, выделенных в заголовке, реферате и основной части показал, что лишь незначительная часть ключевых терминов, используемых в рефератах, содержится в основной части текста. Таким образом, учет рамочной конструкции текста позволяет упростить поиск релевантных сведений и сократить объем текстовой информации, подлежащей переработке.
Выделение ключевых слов и оценка их значимости может производиться на базе сравнительного анализа корпуса текстов научных статей и рефератов. При этом для определения степени информативности ключевых слов можно использовать такой показатель, как уровень распространенности.
Кроме того, при оценке значимости ключевых слов необходимо учитывать их расположение в тексте. Исследование особенностей размещения ключевых слов в структурных компонентах научной статьи показывает, что слова, входящие в текст заголовка, вводную и заключительную часть текста, являются высокоинформативными.
Итак, на основании сравнительного исследования корпуса текстов научных статей и рефератов было сделано заключение о наиболее информативных ключевых словах. Наиболее информативными являются следующие ключевые слова:
• ключевые слова, расположенные в заголовке, вводной и заключительной части текста;
• ключевые слова, имеющие высокий уровень распространенности;
• ключевые слова, состоящие из двух или трех компонентов.
Именно эти слова являются ключевыми и на их основе с помощью специальных алгоритмических процедур возможно формирование автоматического реферата.
Литература
1. Гринева М.П. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов / М.П. Гринева. - Режим доступа: http://citforum. ru/database/articles/kw_extraction/
2. Москвитина Т.Н. Ключевые слова и их функции в научном тексте / Т.Н. Москвитина // Вестник Челябинского государственного педагогического университета. - 2009. - №11. - С. 270-283.
3. СолошенкоА.Н. Автоматизация реферирования новостных Интернет-текстов / А.Н. Солошенко, Ю.А. Орлова, В.Л. Розалиев // Известия Волгоградского государственного технического университета. - 2013. - №22 (125). - С. 81-86.
4. Тарасов С.Д. Метод тематического связанного ранжирования для задач автоматического сводного реферирования научно-технических информационных сообщений: автореф. дис…. канд. техн. наук: 05.13.01 / Тарасов С.Д.; Балт. гос. техн. ун-т «Военмех» им. Д.Ф. Устинова. - СПб., 2011. - 21 с.
5. Nilesh R. Automatic Text Summarization with Cohesion Features / R. Nilesh // International Journal of Computer Science and Information Technologies. - 2017. - Vol. 8, no.
2. - Pp. 194-198.
6. Абрамов Е.Г. Подбор ключевых слов для научной статьи / Е.Г. Абрамов // Научная периодика: проблемы и решения. - 2011. - №2. - С. 35-40.
7. Камшилова О.Н. Малые формы научного текста: ключевые слова и аннотация (информационный аспект) / О.Н. Камшилова // Известия Российского государственного педагогического университета им. А.И. Герцена. - 2013. - №156. - С. 106-117.
8. Лукашевич Н.В. Комбинирование признаков для автоматического извлечения терминов / Н.В. Лукашевич, Ю.М. Логачев // Вычислительные методы и программирование: Новые вычислительные технологии. - 2010. - №11 (2). - С. 108-116.
9. Bharti S. Automatic Keyword Extraction for Text Summarization in Multi-document e-Newspapers Articles / S. Bharti, K. Babu, A. Pradhan // European Journal of Advances in Engineering and Technology. - 2017. - Vol. 4, no. 6. - Pp. 410-427.
10. Беляева Л.Н. Лингвистические автоматы в современных гуманитарных технологиях / Л.Н. Беляева. - СПб.: Книжный дом, 2007. - 192 с.
Размещено на Allbest.ru
...Подобные документы
Чтение художественного текста повести Н.В. Гоголя "Коляска". Прояснение толкования неясных слов. Стилистика произведения, правила расстановки слов в предложении. Идейное содержание, композиция и основные образы текста, используемые формы выражения.
реферат [39,5 K], добавлен 21.07.2011Авторская песня: определение понятия и история развития. Понятие фонетических и ритмико-интонационных особенностей. Роль фонетических средств в системе средств создания образности художественного (поэтического) текста на примере текстов А. Панкратовой.
дипломная работа [58,1 K], добавлен 18.01.2014Литературное произведение как феномен. Содержание произведения как литературоведческая проблема. Литературный текст в научных концепциях ХХ в. Учение о произведении как единстве текста и контекста. Категория автора в структуре художественной коммуникации.
курсовая работа [78,4 K], добавлен 02.03.2017Сущность коннотации с точки зрения дополнительного значения понятия или языкового выражения. Анализ лексики художественных и публицистических текстов. Особенности лексических единиц с негативной коннотацией в русско-английском и англо-русском переводе.
курсовая работа [67,8 K], добавлен 10.11.2011Анализ своеобразия личности и творчества И.С. Шмелева. Исследование языковых особенностей авторского текста, малопонятных слов и выражений. Определение значения языковых средств выразительности для создания системы образов и реализации концепции книги.
курсовая работа [41,0 K], добавлен 31.10.2014Логико-структурная схема аннотации, ее содержание и принципы составления, распространенные словосочетания, используемые в данном процессе. Реферативный вид чтения и его отличительные особенности. Классификация и типы рефератов, их задачи и назначение.
презентация [168,3 K], добавлен 19.04.2015Лингвостилистические особенности поэтического текста. Взаимоотношения формы и содержания в переводе поэтических текстов как залог их адекватности. Трансформация смысла в поэтическом переводе. Принцип "намеренной свободы" в переводе поэтического текста.
курсовая работа [45,2 K], добавлен 14.11.2010Исследование архаических мотивов и моделей в авторских произведениях. Проведение структурного анализа произведения. Определение и анализ архаических корней образов персонажей сказки "Конек-горбунок" П.П. Ершова. Выделение структурных единиц произведения.
курсовая работа [55,0 K], добавлен 17.09.2012Детская литература как предмет интереса научной критики. Анализ личности современного критика. Характеристика стратегий осмысления советской детской литературы в критике: проецирование текста на советскую действительность и мифологизация текста.
курсовая работа [67,3 K], добавлен 15.01.2014Лексические и фонетические особенности текста Супрасльской летописи. Синтаксические особенности исследованного текста. Члены предложения и способы их выражения. Простое и сложное предложения в древнерусском языке. Морфологические особенности текста.
курсовая работа [34,4 K], добавлен 23.02.2010Особенности художественного текста. Разновидности информации в художественном тексте. Понятие о подтексте. Понимание текста и подтекста художественного произведения как психологическая проблема. Выражение подтекста в повести "Собачье сердце" М. Булгакова.
дипломная работа [161,0 K], добавлен 06.06.2013- Игра слов как стилистический прием в произведении Льюиса Кэрролла "Приключения Алисы в стране чудес"
Определение игры слов и ее стилистическая характеристика, классификация и типы по способу создания. Жизненный путь Льюиса Кэрролла, история создания прототипа Алисы из страны чудес. Анализ примеров употребления игры слов в исследуемом произведении.
курсовая работа [56,8 K], добавлен 08.03.2017 Эмотивность художественного текста, уровни ее анализа и лексические средства исследования. Переводческая трансформация как важнейшая категория перевода. Языковые средства создания эмоциональной тональности (на материале романа Д. Дю Морье "Ребекка").
дипломная работа [138,8 K], добавлен 20.05.2015Выделение художественного стиля в ряду функциональных стилей. Рассказ как жанр художественного стиля. Стилистические характеристики рассказа Фрэнсиса Скотта Фицджеральда "The Adjuster". Структура текста и стилистические образующие элементы рассказа.
реферат [60,2 K], добавлен 30.11.2016Интерпретация художественного произведения, ее основные виды. Расчленение текста на формальные и формально-аналитические составляющие. Взаимодействие различных видов интерпретации текста. Интерпретация повестей Н.В. Гоголя в смежных видах искусства.
контрольная работа [27,3 K], добавлен 24.05.2012Специфика и образный строй художественного текста. Особенности жанра сказки. Способы создания образа персонажа в произведениях. Типичные положительные герои немецких сказок. Построение речи и поступки персонажей в сказке Братьев Гримм "Красная шапочка".
курсовая работа [43,6 K], добавлен 24.06.2014Пространство, время и вещь как философско-художественные образы. Анализ комплекса проблем, связанных с жизнью художественного текста Бродского. Концептуальные моменты мировосприятия автора и общие принципы преобразования их в художественную ткань текста.
контрольная работа [25,3 K], добавлен 23.07.2010Способы выражения автора в художественном произведении. История создания и интерпретация заглавия романа Теодора Драйзера "Американская трагедия". Анализ ключевых слов в романе, раскрывающих авторскую позицию. Выявление художественных деталей в романе.
курсовая работа [47,5 K], добавлен 10.11.2013Вопросы о смысле и цели человеческого существования, нравственного и гражданского долга, возмездия за преступления в трагедии У. Шекспира "Гамлет"; исследование русских переводов XIX века и способов адаптации текста пьесы в русской культурной среде.
эссе [22,6 K], добавлен 02.05.2012Изучение истории создания Достоевским образа Ивана Карамазова. Выделение двойников и оппонентов Ивана Карамазова, а также определение их идейно-композиционной роли в романе. Раскрытие образа черта. Подведение итога послероманной жизни данного героя.
дипломная работа [74,7 K], добавлен 05.01.2015