Тематическая организация текста инструкций как лингвистическая основа приобретения знаний интеллектуальным агентом
Выделение ключевых слов из текста с помощью автоматизированной системы TextAppliance. Особенности процесса разработки технологии выделения из текста слов и субстантивных словосочетаний, обладающих комплексом основных характеристик ключевого слова.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 29.07.2021 |
Размер файла | 35,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Тематическая организация текста инструкций как лингвистическая основа приобретения знаний интеллектуальным агентом
Л. А. Каджая1,2, Ю. М. Кузнецова3, В. А. Салимовский1, М. И. Суворова3
1 Пермскийгосударственныйнациональныйисследовательскийуниверситет, РоссийскаяФедерация, Пермь
2 Шандуньскийуниверситет, КитайскаяНароднаяРеспублика, Вэйхай
3 Федеральныйисследовательскийцентр «Информатика и управление» РАН, РоссийскаяФедерация, Москва
Исследуетсятематическаяорганизацияинструктивныхтекстов в аспектепроблематики, актуальнойдляработпосозданиюкогнитивногоассистента.Назначениеассистента -- предоставитьпользователю в соответствии с егопоисковымзапросоминформацию, необходимуюдляследованияправиламопределенногосценария, способствующимуспешномудостижениюпоставленнойцели.Уточняемыйпомеререшениязадачизапрос, содержащийтеилииныеключевыеслова, ориентированнаразвернутыйнабортем, маркирующихпредметныеобласти, отраженные в сценарии.Предлагаетсяобзорлингвистическихработ, посвященныхвопросамтема-рематическогоструктурированияпродуцируемоготекста, а такжеегокомпрессии, пределомкоторойявляютсяключевыеслова.Подчеркнутозначениеописаниятематическихцепочектекстадляполучениядетальнойобъективнойинформации о еготематическойструктуре.Присопоставленииспискаключевыхслов, выявленныхавтоматическойсистемойTextApplianceв коллекцииинструктивныхтекстов, извлеченныхизинтернета, с результатамиручногоанализаэтихтекстов, определяющегоместоразличныхноминативныхединиц в тематическойорганизацииречевогопроизведения, былиустановленынаиболеезначимыехарактеристикиключевогослова, проявляющиеся у разныхноминативныхединиц в разнойстепени. Этовысокийпоказательидентификаторатекста, содержательнаяемкость, а такжекоммуникативнаязначимостьсловаилисубстантивногословосочетаниякакмаркераважнойдляадресатаинформации.Определениеключевыхслов в целыхинструктивныхтекстах и в относительноавтономныхтекстовыхфрагментах (субтекстах), описывающихотдельныеэтапыдостиженияпоставленнойпользователемцели (например, этаповвыбораавтомобиля, егоосмотра, оформлениясделки, регистрациимашины), должноспособствоватьулучшениюкачестваидентификациисценария в Сети. Извлечениеключевыхсловвместе с ихконтекстомпозволитавтоматическисоздаватьбазурекомендацийпользователю. Раскрываетсязначимостьанализатема-рематическойструктурытекстакакзнакадляегомоделирования в знаковойкартинемира.
Ключевыеслова:интеллектуальныйагент, текст, тема-рематическаяорганизациятекста, ключевоеслово, тематическаяцепочка.
Thematic organization of instructional texts as a linguistic basis for the acquisition of knowledge by an intelligent agent
L. A. Kadzhaya1,2, Iu. M. Kuznetsova3, V. A. Salimovskii1, M. I. Suvorova3
1 Perm State University,
Perm, Russian Federation
2 Shandong University,
Weihai, China
3 Federal Research Center “Computer Science and Control” of the Russian Academy of Sciences,
Moscow, Russian Federation
The article examines the thematic organization of instructional texts in the aspect of problems relevant to work on the creation of a cognitive assistant. The purpose of the assistant is to provide a user with the necessary information to follow the rules of a particular scenario to successfully achieve a goal according to the search query. The query containing certain keywords, further specified as the task being solved, is focused on a detailed set of topics which mark the subject areas reflected in the scenario. The authors of the article provide a review of some linguistic works devoted to the issues of theme-rhematic structuring of a produced text and its compression within the limits of keywords. The importance of the description of the text's thematic chains, to obtain the detailed objective information on its thematic structure, is emphasized. When comparing the list of keywords identified by the automatic system TextApplianсe in a collection of Internet-extracted instructional texts retrieved from the Internet with the results of hand-held analysis of these texts, to determine the place of various nominative units in the text's thematic organization, the authors consider the most significant characteristics of a keyword shown in different nominative units to varying degrees. This is a high indicator of a text identifier, content capacity, and communicative significance of a word or a substantive phrase as a marker of important information for a recipient. Defining keywords in whole instructional texts and in relatively independent text fragments (subtexts) that describe individual stages of the user's goal achievement (for example, the stages of selecting a car, its inspection, making a transaction, car registration) makes it possible to improve the quality of scenario identification in the Network. Extracting keywords along with their context allows for the creation of a recommendations' database for users automatically. The significance of the theme-rhematic text structure analysis, as a sign for its modeling in the sign picture of the world, is revealed.
Keywords: intelligent agent, text, theme-rhematic text organization, keyword, thematic chain.
Постановка проблемы
Традиционными для искусственного интеллекта методами сбора информации о предметной области являются опрос экспертов и создание онтологий. В последние годы высказывается мысль о возможности принципиально иного подхода к разработке инструктирующих интеллектуальных систем, который не требует предварительного сбора данных разработчиком, а основывается на психологическом и лингвистическом анализе технического задания как целевой установки, развертывающейся в текст. Предполагается, что интеллектуальный агент будет получать знания из интернета под конкретную задачу. В этом случае интеллектуальная система должна быть наделена картиной мира, а ее работа, как и работа человеческого сознания, опосредована языковыми знаками [Осипов и др. 2018; Салимовский и др. 2019]. Такая система была бы гибкой, поскольку выявляла те значения, свойства и модальности, которые важны именно для данного технического задания. Она обладала бы неограниченными познавательными возможностями, обеспечиваемыми выходом в интернет -- к библиотекам, архивам, социальным сетям и другим источникам информации.
Для приобретения знаний интеллектуальному агенту потребовалась бы иерархически организованная система потенциальных запросов, базирующаяся на развернутом наборе тем -- маркеров предметных областей, включенных в сценарий.
Особым типом интеллектуальных агентов является когнитивный ассистент, разрабатываемый в Институте проблем искусственного интеллекта ФИЦ «Информатика и управление» РАН. Базой способностей когнитивного ассистента служит придаваемая ему знаковая картина мира, в которой содержатся его назначение, цели, возможные действия и их сценарии, смыслы, способы и результаты достижения целей. Кроме своей собственной базы, ассистент в ходе самостоятельного когнитивного анализа коммуникации и поведения пользователя строит модель его картины мира, включающую в себя отраженные ассистентом сценарии и личностные смыслы, ценности, предпочтения и привычки человека. Общение когнитивного ассистента с пользователем строится с учетом этих двух картин мира [Смирнов и др. 2019].
При создании когнитивного ассистента важно иметь в виду, что по отношению к сценарию в целом и каждой его предметной области социальным сознанием выработаны правила целесообразного поведения субъекта. Однако отдельному пользователю они обычно неизвестны в достаточном объеме. Поэтому задачакогнитивного ассистента состоит в том, чтобы в соответствии с информационными запросами пользователя, уточняющими исходное задание, транслировать эти правила как рекомендации. Иными словами, агент, владея сформировавшимися в общественном сознании правилами решения задачи, направлял бы поисковую активность пользователя, указывая ему, какую именно информацию нужно получить для успешного достижения цели.
Конечно, любой социальный сценарий в определенном смысле открытый: он может развиваться, а его слоты могут рассматриваться в «укрупненном» виде как самостоятельные сценарии со своими слотами. Однако в каждый период своего существования сценарий обладает определенностью и может быть охарактеризован с необходимой полнотой.
Как известно, сжатой формой поисковых запросов, как и текстов, содержащихся в Сети, являются ключевые слова. В психолингвистике и теории деривации ключевые слова рассматриваются как результат компрессии речевого произведения, как маркеры его цельности (и субцельностей текстовых фрагментов) [Сахарный 1982; 1992; 1994; Мурзин 1982; 1984; Мурзин, Штерн 1991].
Логично думать, что система потенциальных запросов интеллектуального агента может быть построена на основе системы ключевых слов, в компрессированном виде представляющих содержание множества инструктивных текстов по решению определенной социально значимой задачи.
Цель статьи состоит в совершенствовании метода выделения ключевых слов из корпуса текстов, реализующих речевой жанр «план-инструкция» и воплощающих сценарий деятельности субъекта. Ключевые слова выявляются на основании анализа тематических цепочек [Матвеева 1990] с учетом тема-рематического структурирования текстов. Полученный набор ключевых слов сравнивается с их набором, устанавливаемым автоматической системой TextAppliance[Мбайкоджи, Драль, Соченков 2012; Ананьева и др. 2016]. Это сравнение позволяет проанализировать основные особенности выделяемых системой слов и словосочетаний и в дальнейшем учитывать их для совершенствования методов автоматического извлечения ключевых слов из текста.
Материалом исследования послужили собранные в интернете тексты инструкций по покупке автомобиля. Корпус насчитывает 100 инструкций, содержащих описание разных этапов покупки.
История вопроса
Характеризуя текстообразование как процесс тема-ремати-ческого структурирования цельности, Л. В. Сахарный рассматривает цельность как основную категорию текста. Под цельностью он понимает «психолингвистический феномен особого рода, который представляет собой возникающее в психике человека симультанное (одновременное), интегральное, полностью не осознаваемое динамическое представление о некотором объекте» [Сахарный 1994: 20]. Осмысление цельности говорящим (пишущим) предполагает выделение из нее «смысловых вех», или субцельностей, из которых, в свою очередь, выделяются более частные субцельности Понятия цельности и субцельности относятся к организации конкретного речевого произве-дения. При продуцировании же нового текста субцельность может становиться цельностью. При-мечательны случаи выделения субцельностей из текста и их последующего функционирования уже. С использованием категориального аппарата функционального синтаксиса этот процесс описывается как тема-рематическое структурирование: цельность выступает темой, а осмысливаемая в ней субцельность -- ремой. На каждом новом шаге продуцирования текста рема становится темой, в которой обнаруживается новая рема (или ремы). Выделяемые в тексте субцельности могут рассматриваться в качестве коррелята «тематических макроструктур», анализируемых Т. А. ван Дейком [Дейк 1989].
С опорой на категорию цельности Л. В. Сахарный исследует механизм не только развертывания текста, но и его компрессии (свертывания): сохраняя свое содержательное тождество, текст при переходе от одной ступени компрессии к другой, более глубокой, лишается только маргинальных элементов своего содержания (ср.: [Леонтьев 1976; Дридзе 2009]). Результатом компрессии становится набор ключевых слов [Сахарный 1992]. Они представляют тему целого текста и подтемы его основных смысловых фрагментов.
С близких позиций к изучению текстообразования подходит Л. Н. Мурзин [Мурзин 1982; 1984]. Согласно его концепции, в речемыслительном акте некоторый неопределенный объект получает определенность благодаря приписыванию ему некоторого признака. В результате возникает новый объект, менее неопределенный, чем предшествующий. Объекту соответствует понятие темы, а признаку -- понятие ремы. На уровне лексико-грамматического воплощения глубинной тема-рематиче-ской структуры действуют механизмы контаминации и компрессии. Контаминация служит транспозиции предшествующего предложения в свободную позицию последующего. Тем самым она обеспечивает развертывание текста. Компрессия, напротив, обеспечивает устранение его избыточности, создаваемой включением каждого последующего предложения в предыдущеев качестве цельностей. (Примером могут служить фрагменты из пушкинского «Евгения Онегина», публикуемые как самостоятельные стихотворения о природе для детей.) Хрестоматийным примером семантической избыточности, возникающей в процессе тексто- порождения, является известное стихотворение С. Маршака: «Вот дом, который построил Джек. А это пшеница, которая в темном чулане хранится в доме, который построил Джек. А это веселая птица-синица, которая часто ворует пшеницу, которая в темном чулане хранится, в доме, который построил Джек...».. Пределом компрессии является «слово как наиболее компактная форма репрезентации текста» [Мурзин 1982: 27].
Тема-рематическое структурирование цельности как глубинный процесс зеркально не отражается в композиционной и собственно речевой организации текста, которая определяется не только задачей раскрытия темы, но всем комплексом познавательно-коммуникативных установок, охватываемых авторским замыслом.
В предложенной Т. М. Дридзе концепции текста как иерархии коммуникативных программ [Дридзе 2009], развивающей идеи Н. И. Жинкина, в качестве предикации первого порядка рассматривается цель сообщения, предикации второго порядка -- основной констатирующий тезис и аналитическая оценка ситуации, составляющие основные элементы общего содержания. Второстепенные же элементы образуют предикация третьего порядка -- иллюстрации к основному тезису и предикация четвертого порядка -- общий фон к цели сообщения. Автор подчеркивает, что ключевые слова «несут большую ценность с точки зрения информативности текста, если они входят в предикации высших порядков» [Дридзе 2009: 89].
Закономерности выражения темы в уже созданном тексте совокупностью тематических групп слов исследуются Т. В. Матвеевой. В ее работах эксплицируются, в частности, важные для нас понятия тематического поля текста и тематических цепочек [Матвеева 1990; 2019]. Тематическое поле образуют слова разных лексико-грамматических классов и номинативные словосочетания, обладающие общей семой. Наиболее значимы для тематического поля в семантическом и структурном отношениях непосредственные наименования предмета речи, т. е. предметные номинации.
Тема текста и его подтемы могут быть описаны в виде тематических цепочек. Основная цепочка, проходящая через весь текст, представляет его тему, а дополнительные цепочки определяют объем подтем [Матвеева 1990]. В составе тематических цепочек различаются основная номинация, наиболее точно и непосредственно обозначающая предмет речи, и дополнительные номинации, часто имеющие экспрессивно-эмоциональную окраску.
Т. В. Матвеевой охарактеризованы особенности реализации категории темы (наряду с другими текстовыми категориями) в речевых произведениях различной функционально-стилевой и жанровой принадлежности.
При решении задач в области информационного поиска и индексирования документов ключевое слово обычно определяется как «слово или словосочетание (термин) в тексте документа или запроса, несущий в нем существенную информационную нагрузку хотя бы по одной из тем, рассматриваемых в документе» ГОСТ Р 7.0.66-2010. ИСО 5963:1985. СИБИД (2010). Электронный ресурс http://docs.cntd.ru/document/1200084836.. Однако понятие «информационная нагрузка слова» трактуется исследователями по-разному. В большинстве случаев акцент делается на соотнесенности ключевых слов с основным содержанием текста, но нередко (в том числе в системе TextAppli- ance) -- на их дифференцирующей функции при нахождении нужного документа.
Оценка информационной нагрузки в тексте тех или иных номинативных единиц и разработка более общей проблематики -- изучение тематической организации речевого произведения, определение степени тематической близости различных произведений -- это вопросы, от успешного решения которых во многом зависит совершенствование автоматического извлечения ключевых слов [Ванюшкин, Гращенко, Романишин 2019; Beliga2015; Sterckx et al. 2019].
Для уточнения основных характеристик ключевых слов важно сравнить наборы этих единиц, установленные при разном понимании их информационной значимости.
Описание методики исследования
В системе TextApplianceвес ключевых слов определяется по формуле TF -- IDF, где TF (term frequency) -- частота употребления слова в анализируемом документе, а IDF (inverse document frequency) -- отношение общего количества документов фоновой коллекции (т. е. текстов, содержащихся в TextAppliance) к количеству документов, в которых взвешиваемое ключевое слово встречается хотя бы один раз. Большую значимость получают те слова, которые часто встречаются в анализируемом документе и относительно редко -- в остальных документах коллекции. Тем самым система определяет, насколько то или иное слово специфично для рассматриваемого текста (или же изучаемого множества текстов, представляющих определенный сценарий, т. е. сверхтекста -- «совокупности высказываний или текстов, объединенных содержательно и ситуативно» [Купина 2019: 374]). Иначе говоря, она устанавливает, насколько та или иная лексическая единица подходит на роль идентификатора (ключа), позволяющего обнаружить некоторый текст (или сверхтекст).
Помимо использования указанной системы мы осуществляли ручной анализ текстов для определения места того или иного ключевого слова в их тематической организации. С этой целью анализировались тематические цепочки речевого произведения. Обращение к этим цепочкам позволяет, кроме того, выделить наиболее значимые в тематическом отношении слова, так как любая разрабатываемая автором тема (тема, актуальная для него) представлена именно цепочкой номинативных единиц -- повторением одних и тех же слов, использованием синонимов, перифраз.
В тематической цепочке каждая из номинативных единиц выражает одно и то же ключевое понятие и в этом смысле является ключевым словом. Однако по отношению к сверхтексту ключевыми обычно оказываются лишь основные номинации цепочек (и некоторые их неоценочные синонимы), поскольку лишь они выражают соответствующее ключевое понятие во всех или многих текстах коллекции.
Ориентироваться в тематической структуре текста помогают подзаголовки, проспективные конструкции и вопросительные предложения, утвердительная часть которых называет развиваемую в дальнейшем тему.
При рассмотрении содержания текстовых фрагментов в аспекте деятельностной модели знака [Осипов и др. 2018] номинативные единицы характеризуются нами вместе с предицируемыми им признаками (ремами).
Анализ материала. Проанализируем один из текстов, хорошо иллюстрирующих рассматриваемые закономерности: «Какой купить автомобиль?» http://вертикаль-оса.рф/publ/kakoj_kupit_avtomobil/1-1-0-4.. Его автор, поддерживая контакт с адресатом (инструктируемым лицом), активно использует диалогические речевые средства [Дускаева 2018], включая вопросительные предложения, которыми по ходу разговора маркируется каждый новый его предмет (тема): Какую машину выбрать -- отечественную или иномарку? Кто будет на ней ездить? Для чего мне этот автомобиль? Что я собираюсь на нем перевозить? Куда я собираюсь на нем ездить и с каким грузом? Каковы должны быть размеры вашего автомобиля? АКПП или МКПП? Какой объем двигателя выбрать? Выбрать задний или передний привод? Новая или подержанная? и др. Некоторые вопросительные предложения используются в роли подзаголовков. Функцию выделения темы выполняют также проспективные конструкции: Что касается систем безопасности автомобиля... Что касается конкретной марки автомобиля... По поводу «тюнинга».
Как уже отмечалось, автор текста определяет круг тем не произвольно, а в соответствии со сложившейся в общественном сознании моделью типичной ситуации -- сценарием покупки автомобиля. Поэтому не только в рассматриваемом тексте, но и в других текстах, отражающих этот сценарий, представлен близкий состав тем: «цель покупки», «условия эксплуатации автомобиля», «цена автомобиля и сопутствующие покупке расходы», «возраст машины», «страна-производитель», «класс автомобиля», «марка автомобиля», «тип коробки передач», «характеристики силового агрегата», «вид привода», «система безопасности», «кузов», «салон» и др.
Тематические цепочки, маркирующие основную и каждую из частных тем рассматриваемого текста, дают объективное представление о его тематической организации, которая, в свою очередь, может быть соотнесена с содержанием сценария, воплощенного в тексте. При этом каждая тема-рематическая пара инструктивного текста, описывающего способы осуществления определенной деятельности, фиксирует уточнение более абстрактного содержания (выбираем машину) путем введения дополнительной информации (выбираем марку/функционал/размеры и т. п.), что позволяет адаптировать общий способ к конкретным условиям, в которых действует или планирует действовать человек. Поэтому с точки зрения психологии движение в тема-рематическом пространстве инструктивного текста соответствует структуре осуществления деятельности: ее общий мотив определяет содержание и последовательность ряда промежуточных действий, цели которых доопределяются в зависимости от конкретных обстоятельств реализации мотива.
Нужно иметь в виду, что любое синтаксически свободное словосочетание на глубинно-сематическом уровне -- результат свертывания некоторой тема-ремати- ческой структуры. Так, предложение Автомобиль (предмет потребности будущего владельца, известное, тема) выбирают [или страхуют, регистрируют] (ремы) преобразуется в номинативную единицу выбор автомобиля, образующую в процессе развертывания текста новую тему, в которой выделяется тот или иной признак (рема). Психологическим коррелятом образования в инструктивном тексте тема-рематических цепочек выступает процесс последовательной операционали-зации планируемых целей, т. е. построения все более детальных схем действования с учетом все более конкретных условий. Преобразование ремы в тему отражает на речевом уровне ситуацию, когда сделанный на предыдущем этапе планирования выбор оказывается не конечным, а требующим дальнейшей детализации.
Исходная тема -- автомобиль -- маркируется проходящей через весь текст номинативной цепочкой: автомобиль (19 повторений), машина (16), авто (3), легковушка, автомобильчик, машинка, пластмассовая игрушка.Эта тема по разным основаниям связана родо-видовыми отношениями с вводимыми автором новыми темами, образующими свои номинативные цепочки («автомобиль отечественного производства» и «автомобиль иностранного производства», «новый автомобиль» и «подержанный автомобиль»): отечественная машина, отечественное авто, произведение отечественного автопрома, произведение российского конструкторского гения с видовыми номинативными цепочками и отдельными номинациями на более низких уровнях деления -- жигули (2);пятерка, восьмерка, девятка, десятка; иномарка (3) и др. Отношениями целого и части исходная тема связана с темами, охватывающими различные агрегаты автомобиля: АКПП, автоматическая КПП, автомат, МКПП, механика (3), механическая коробка, ручная коробка и др.
Номинация покупка автомобиляпредицируется признаками «цель покупки», «условия эксплуатации покупаемой машины», «цена», «опыт вождения» и др. Этим обусловлено появление в тексте рядов номинативных единиц, представленных функциональными эквивалентами: удобство, безопасность, проходимость, статус (ради удобства, безопасности, проходимости; чтобы показать свой статус), семья, гонки (автомобиль для семьи, для гонок); трасса, поток машин; неадекватный сервис, плохое обслуживание и др.
Анализ субтекстов, представленных ключевыми словами, позволяет анализировать текст как знак в аспекте картины мира. Так, показателями смысла (субъективной модальности) выступают а) волюнтативные высказывания -- советы, рекомендации, предостережения и б) оценочные высказывания. Примеры: а) При покупке автомобиля вы должны помнить о трех важнейших составляющих любой системы безопасности; Лучше взять машину с передним или задним приводом; б) Трудно бывает смириться с бездушностью пластиковых салонов современных авто.
Значение (опыт действования в сценарии) выражается предикатами, маркирующими последовательность рекомендуемых инструктором действий, а также детерминантами с семантикой последовательности (сначала, затем, дальше): Естественно сначала ответить на вопрос: «Для чего мне этот автомобиль?» Дальше можно определяться с маркой и моделью автомобиля.
Образ (воспроизведение свойств объекта) создается описательными высказываниями и текстовыми фрагментами: Машина чистенькая, новенькая, все отлично работает, и нет ни единой царапинки; Японцы надежны, но в недорогих комплектациях зачастую страдают дешевым пластиком салона. Немцы дороги, удобны, но любят, когда за ними хорошо ухаживают и не прощают плохого обслуживания. Разумеется, компоненты содержательной структуры знака могут совмещаться, выражаясь одними и теми же речевыми сегментами.
Результаты исследования
Описание тематических номинативных цепочек отдельного текста означает систематизацию номинативных единиц в соответствии с организацией субцельностей речевого произведения, маркерами которых данные единицы являются. Иными словами, это систематизация номинаций, отражающая на поверхностном уровне глубинное тема-рематическое структурирование речевого произведения.
В то же время система TextApplianceопределяет большую или меньшую информационную значимость слов и субстантивных словосочетаний для идентификации текста или множества текстов (сверхтекста). Номинативные единицы с повышенным индексом информационной значимости оцениваются как ключевые слова.
Такие номинации по их принадлежности к тем или иным субцельностям могут быть автоматически соотнесены с различными объектными областями сценария. Некоторые из этих номинативных единиц являются обозначениями данных областей: класс автомобиля, объем двигателя, система безопасности и др. Подобные обозначения, представляя соответствующие субцельности в свернутом виде, принадлежат к числу наиболее емких в содержательном отношении номинаций текста. Они, кроме того, обозначают основные подтемы текста, т. е. подтемы, осмысливаемые автором-инструктором как наиболее значимые для адресата.
Следовательно, появляется возможность установления группы номинаций, которые обладают всем комплексом основных характеристик ключевого слова. Во-первых, это слова и словосочетания, особенно значимые для идентификации текстов определенной тематики. Во-вторых, эти номинации в своей совокупности полно представляют предметное содержание текста. В-третьих, они выступают маркерами содержания, которое автор-инструктор считает наиболее важным и к которому он целенаправленно привлекает внимание адресата.
Каждая из указанных характеристик ключевого слова проявляется у отдельных номинативных единиц в большей или меньшей степени Не случайно исследователи, проводящие эксперименты по автоматическому аннотированию текстов, иногда намеренно не используют в задании респондентам номинацию «ключевое слово», а предлагают выбрать из текста слова и словосочетания, «которые описывают его содержание» [Ва-нюшкин и др. 2019: 211-212].. Например, номинация снежные дороги имеет один из самых высоких показателей идентификатора текста. Она относится к важной объектной области («проходимость автомобиля»), но сама не является названием одной из раскрываемых автором тем. Это же следует сказать о словосочетаниях неопытные водители, полупустая машина, мягкая подвеска и др. Напротив, номинация покупка машины, обозначая тему всего рассматриваемого текста, занимает в рейтинге его идентификаторов периферийное (98-е) место. Однако при включении в поисковый запрос в дополнение к ней других лексических единиц (например, покупка подержанной машины) возникает новая номинация со своими идентификационными характеристиками.
Важно отметить, что определение набора ключевых слов в текстах или субтекстах, посвященных отдельным этапам развертывания сценария (в нашем случае -- выбору автомобиля, его осмотру, заключению сделки, регистрации транспортного средства и другим более частным), может способствовать улучшению качества автоматического распознавания сценариев в электронных массивах текстов. По- видимому, для выделения номинативных единиц, обладающих комплексом указанных выше характеристик ключевого слова, целесообразно с помощью системы TextApplianceанализировать тексты, из которых предварительно устранены фрагменты, реализующие периферийный предикации, т. е. предикации, которые, согласно концепции Т. М. Дридзе, не входят в число основных элементов содержания речевого произведения.
Существенно также, что извлечение ключевых слов вместе с контекстами, в которых они используются, позволяет автоматически формировать базу рекомендаций, значимых для инструктируемого лица. Примеры таких контекстов: Какой ОБЪЕМ ДВИГАТЕЛЯ выбрать? Если вы ездите по городу, лучше взять небольшой: 1,2-1,6 литра... Если частенько приходится ездить по загородным дорогам, можно брать 1,8-2,5 литра. ДЖИПЫ ИЛИ ВНЕДОРОЖНИКИ... Подумайте, нужен ли вам расход 15-17 литров на сотню; Выбрать задний или передний ПРИВОД? С небольшим опытом вождения лучше взять машину с передним или полным приводом.
Таким образом, предложенный подход к анализу текста, учитывающий закономерности его тема-рематического структурирования и компрессии, а также организации номинативных единиц на текстовой плоскости, может стать лингвистической базой для дальнейшего совершенствования систем автоматического извлечения ключевых слов.
Выводы
Создание когнитивных ассистентов, инструктирующих пользователя при реализации им определенной цели, требующей следования некоторому сценарию, делает актуальной задачу разработки иерархически организованной системы потенциальных запросов, представленных ключевыми словами. Сформировавшийся в общественном сознании сценарий содержит правила целесообразного поведения субъекта. Эти правила должны транслироваться ассистентом пользователю в соответствии с его информационными запросами.
Решению указанной задачи могут способствовать лингвистические исследования по теории текста, прежде всего работы, посвященные механизмам тема-рематического структурирования порождаемого речевого произведения, а также его компрессии, пределом которой является набор ключевых слов (Л. В. Сахарный, Л. Н. Мурзин), а также иерархии коммуникативных программ текста как семантикосмысловой структуры особого рода (Т. М. Дридзе), его тематической организации (Т. В. Матвеева и др.). автоматизировання система textappliance ключевое слово
Выделение ключевых слов из текста с помощью автоматизированной системы TextApplianceдополнялось нами определением их места в тематической организации речевого произведения, для чего описывались тематические цепочки последнего. Рассмотрение образующих эти цепочки номинативных единиц в единстве с предицируемыми им признаками (ремами) позволяет изучать содержательную организацию текста как знака, создаваемую смыслами, значениями и образами.
Сделаны первые шаги в разработке технологии выделения из текста слов и субстантивных словосочетаний, обладающих комплексом основных характеристик ключевого слова -- высоким показателем идентификатора документа, содержательной емкостью, а также коммуникативной значимостью номинативной единицы как маркера важной для адресата информации.
Литература
1. Ананьева, М. И., Девяткин, Д. А., Зубарев, Д. В., Осипов, Г. С., Смирнов, И. В., Соченков, И. В., Тихомиров, И. А., Швец, А. В., Шелманов, А. О. (2016). TextAppliance: поиск и анализбольшихмассивовтекстов. В Национальнаяконференцияпоискусственномуинтеллекту с международнымучастием.T. 3 (с. 220-228). Смоленск: Универсум.
2. Ванюшкин, А. С.,Гращенко, Л. А., Романишин, Г. В. (2019). Разметкаколлекциитекстовключевымисловами: практическиеаспектыавтоматизации. Новыеинформационныетехнологии в автоматизированныхсистемах, 22, 210-216.
3. Дейкван, Т. А. (1989).Язык. Познание. Коммуникация.Москва: Прогресс.
4. Дридзе, Т М. (2009).Язык и социальнаяпсихология.Москва: URSS.
5. Дускаева, Л. Р (2018).Диалогичность. В Медиалингвистика в терминах и понятиях: словарь-справочник (с. 32-38). Москва: Флинта.
6. Купина, Н. А. (2019).Сверхтекст. В Стилистическийэнциклопедическийсловарьрусскогоязыка(с. 374-376).Москва: Флинта.
7. Леонтьев, А. А. (1976).Признакисвязности и цельноститекста.В Смысловоевосприятиеречевогосообщения (в условияхмассовойкоммуникации) (с. 46-48).Москва: Наука.
8. Матвеева, Т. В. (1990).Функциональныйстили в аспектетекстовыхкатегорий.Свердловск: Изд-воУрал. ун-та.
9. Матвеева, Т. В. (2019).Тематекста.В Стилистическийэнциклопедическийсловарьрусскогоязыка(с. 252-254).Москва: Флинта.
10. Мбайкоджи, Э.,Драль, А. А., Соченков, И. В. (2012). Методавтоматическойклассификациикороткихтекстовыхсообщений.Информационныетехнологии и вычислительныесистемы 3, 93-102.
11. Мурзин, Л. Н. (1982).О деривационныхмеханизмахтекстообразования.В Теоретическиеаспектыдеривации (с. 20-29).Пермь: Перм. гос. ун-т.
12. Мурзин, Л. Н. (1984).Основыдериватологии.Пермь: Перм. гос. ун-т.
13. Мурзин, Л. Н.,Штерн, А. С. (1991). Текст и еговосприятие.Свердловск: ИздательствоУральскогоуниверситета.
14. Осипов, Г. С.,Чудова, Н. В., Панов, А. И., Кузнецова, Ю. М. (2018). Знаковаякартинамирасубъектаповедения.Москва: Физматлит.
15. Салимовский, В. А.,Осипов, Г. С., Кузнецова, Ю. М., Суворова, М. И., Чудова, Н. В. (2019). Лингвистическиеаспектыцелеполагания в когнитивноммоделировании (наматериалеречевогожанра «план-инструкция»).Искусственныйинтеллект и принятиерешений, 4, 10-22.
16. Сахарный, Л. В. (1982).Актуальноечленение и компрессиятекста (к использованиюметодовинформатики в психолингвистике).В Теоретическиеаспектыдеривации (с. 29-38).Пермь: Перм. гос. ун-т.
17. Сахарный, Л. В. (1992).Тексты-примитивы и закономерностиихпорождения. В Человеческийфактор в языке: Язык и порождениеречи (с. 221-236). Москва: Наука.
18. Сахарный, Л. В. (1994).Человек и текст: двеграмматики. В Человек. Текст. Культура (с. 7-59).Екатеринбург: Институтразвитиярегион. обр.
19. Смирнов, И. В.,Панов, А. И., Скрынник, А. А., Чистова, Е. В. (2019). Персональныйкогнитивныйассистент: концепция и принципыработы. Информатика и ееприменения, 13 (3), 105-113.
20. Beliga, S. (2015). Keyword extraction: a review of methods and approaches. Journal of Information and Organizational Sciences. 39 (1), 1-20.
21. Sterckx, L., Demeester, T., Deleu, J., Develder, C. (2019).Creationandevaluationoflargekeyphraseextractioncollectionswithmultipleopinions. LanguageResourcesandEvaluation, 52 (2), 503-532.
References
1. Anan'eva, M. I ., Deviatkin, D. A., Zubarev, D. V, Osipov, G. S., Smirnov, I. V., Sochenkov, I. V., Tikhomirov, I. A., Shvets, A. V, Shelmanov, A. O. (2016). TextAppliance: search and analysis of large volumes of texts. In National conference on artificial intelligence with international participation. Vol. 3 (pp. 220-228). Smolensk, Universum Publ. (In Russian)
2. Beliga, S. (2015). Keyword extraction: a review of methods and approaches. Journal of Information and Organizational Sciences, 39 (1), 1-20.
3. Deik van, T. A. (1989).Language.Knowledge.Communication. Moscow, Progress Publ. (In Russian)
4. Dridze, T. M. (2009). Language and social psychology. Moscow, URSS Publ. (In Russian)
5. Duskaeva, L. R. (2018). Dialogism. In Metalinguistics in terms and concepts: a dictionary reference (pp. 32-38). Moscow, Flinta Publ. (In Russian)
6. Kupina, N. A. (2019). Hypertext.In Stylistic encyclopedia of the Russian language (pp. 374-376). Moscow, Flinta Publ. (In Russian)
7. Leont'ev, A. A. (1976). Features of coherence and integrity of a text.In Semantic perception of a speech message (in terms of mass communication) (pp. 46-48). Moscow, Nauka Publ. (In Russian)
8. Matveeva, T. V (1990).Functional styles in the aspect of text categories. Sverdlovsk, Ural University Publ. (In Russian)
9. Matveeva, T. V (2019).Text subject.In Stylistic encyclopedia of the Russian language (pp. 252-254). Moscow, Flinta Publ. (In Russian)
10. Mbaikodzhi, E., Dral', A. A., Sochenkov, I. V (2012).Method for automatic classification of short text messages.Informatsionnyetekhnologiiivychislitelnyesistemy 3, 93-102. (In Russian)
11. Murzin, L. N. (1982). On derivation mechanisms of text formation.In Theoretical aspects of derivation (pp. 20-29). Perm', Perm State University Publ. (In Russian)
12. Murzin, L. N. (1984). Fundamentals of derivatology. Perm', Perm State University Publ. (In Russian)
13. Murzin, L. N., Shtern, A. S. (1991). Text and its perception. Sverdlovsk, Ural University Publ. (In Russian) Osipov, G. S., Chudova, N. V, Panov, A. I., Kuznetsova, Iu. M. (2018).Symbolic world picture of a behavior subject. Moscow, Fizmatlit Publ. (In Russian)
14. Sakharnyi, L. V. (1982). Actual text division and text compression (on the use of computer science methods in psycholinguistics).In Theoretical aspects of derivation (pp. 29-38). Perm', Perm State University Publ. (In Russian)
15. Sakharnyi, L. V. (1992). Texts-primitives and laws of their generation. In Human factor in language: Language and speech generation (pp. 221-236). Moscow, Nauka Publ. (In Russian)
16. Sakharnyi, L. V. (1994). Individual and Text: two grammars. In Individual.Text. Culture (pp. 7-59). Ekaterinburg, Institute of Regional Education Development Publ. (In Russian)
17. Salimovskii, V. A., Osipov, G. S., Kuznetsova, Iu. M., Suvorova, M. I., Chudova, N. V. (2019).Linguistic aspects of goal setting in cognitive modeling (on the material of the speech genre “plan-instruction”).Iskusstvennyiintellektipriniatiereshenii, 4, 10-22. (In Russian)
18. Smirnov, I. V., Panov, A. I., Skrynnik, A. A., Chistova, E. V. (2019). Personal cognitive assistant: concept and principles of work. Informatikaieeprimeneniia, 13 (3), 105-113. (In Russian)
19. Sterckx, L., Demeester, T., Deleu, J., Develder, C. (2019).Creationandevaluationoflargekeyphraseextractioncollectionswithmultipleopinions. LanguageResourcesandEvaluation, 52 (2), 503-532. Vaniushkin, A. S., Grashchenko, L. A., Romanishin, G. V. (2019). Marking up a collection of texts with keywords: practical aspects of automation.Novyeinformatsionnyetekhnologii v avtomatizirovannykhsiste- makh, 22, 210-216. (In Russian)
Размещено на Allbest.ru
...Подобные документы
Выделение единиц перевода на уровне фонем, графем, морфем, слов, словосочетаний, предложений и текста. Выявление текстовой функции исходной единицы перевода. Пространственно-временные и причинно-следственные характеристики словесного состава текста.
презентация [38,7 K], добавлен 29.07.2013Ознакомление с содержанием текста, выделение в нем орфограмм и пунктограмм. Группирование слов, принадлежащих разным частям речи. Нахождение слова в тексте, употребляемого в переносном значении. Проведение синтаксического разбора сложного предложения.
контрольная работа [15,5 K], добавлен 04.02.2012Понятия концепта, концептосферы, дискурса в лингвистике. Коммуникативное пространство песенного текста. Анализ лингвостилистических и просодических особенностей художественного текста. Анализ семантики заглавия и ключевых слов текста сингла "Skyfall".
курсовая работа [35,1 K], добавлен 23.03.2016Проведение трансляции заданного текста с немецкого языка на русский с учетом правил перевода инфинитивных групп, оборотов, конструкций, передачи временных форм и порядка слов, выделение сказуемого, придаточного и объяснение их грамматических признаков.
контрольная работа [28,1 K], добавлен 04.05.2010Определение коммуникативного намерения автора с опорой на собственную интуицию на примере отрывка из текста. Установление образа автора и характера дискурса. Ролевые отношения автора и адресата. Лексико-грамматический анализ ключевых слов текста.
курсовая работа [20,2 K], добавлен 23.07.2011Выполнение высококвалифицированных переводов. Правильное и полное понимание текста и его значение для перевода. Особенности двуязычных словарей. Сочетания слов в словарях. Переводы однозначного слова при помощи двух или более слов, близких по значению.
лекция [42,9 K], добавлен 30.10.2013Англоязычные тексты инструкций, контрактов и рекламные тексты, их типологические характеристики. Коммуникативное задание текста, источник текста, получатель текста, тип информации (когнитивная, эмоциональная, эстетическая) и доминанты перевода.
учебное пособие [1,8 M], добавлен 12.12.2010Характеристики жанра инструкции как текста официально-делового стиля. Средства выражения модальности текста. Сравнительный анализ двух инструкций к комбайнам фирмы Braun по параметрам качества перевода. Способы улучшения качества перевода инструкций.
дипломная работа [105,3 K], добавлен 16.01.2011Работа с текстом на английском языке. Чтение и устный перевод текста, усправление неверных утверждений. Ответы на вопросы по содержанию текста. Образование словосочетаний, обозначающих методы тестирования и оценки, используемые при отборе кандидатов.
контрольная работа [20,9 K], добавлен 08.03.2015Структура текста, морфологический уровень. Исследование текста с лингвистической точки зрения. Прямонаправленная и непрямонаправленная связность текста. Важность морфологического уровня текста в понимании структуры текста и для понимания интенции автора.
реферат [30,4 K], добавлен 05.01.2013Понятие текста в концепциях лингвистов и психолингвистов, его основные характеристики, свойства и функции. Подходы к его описанию. Природа и процесс порождения текста. Механизмы и особенности его восприятия на примере анализа художественного произведения.
курсовая работа [47,8 K], добавлен 15.01.2014Лингвистическая модель переводческого процесса. Перевод как вид речевой деятельности, как феномен коммуникации. Роль интерпретации при переводе. Основные типы семантических транформаций в переводе художественного текста, их виды и универсальность.
реферат [23,5 K], добавлен 30.06.2009Современные подходы интерпретации анализа художественно-прозаического текста с учетом его специфики, базовых категорий и понятий. Рассмотрение художественного текста как единства содержания и формы. Практический анализ текста "A Wicked Woman" Дж. Лондона.
курсовая работа [48,5 K], добавлен 16.02.2011История отечественного терминоведения. Выявление лексических и семантических особенностей специального текста для применения этих знаний в практике моделирования семантики специального текста. Требования к терминам, их анализ. Понятие фоновой лексики.
курсовая работа [106,3 K], добавлен 14.11.2009Разновидности структуры текста. Основные правила написания введения, основной части и заключения. Выбор названия и заголовков. Логичность текста, правильная организация его частей, связность предложений между собой. Простые и сложные предложения.
презентация [55,2 K], добавлен 23.11.2015Теоретические основы изучения текста. Разграничение текста и дискурса. Понятие текста и подходы к его анализу. Употребление терминов texte и discours во французском языке. Сравнительно-сопоставительное исследование текста астрологического прогноза.
дипломная работа [204,5 K], добавлен 03.07.2009Теоретические аспекты рассмотрения особенностей перевода устойчивых словосочетаний и терминологических клише на основе научных текстов и диссертационных работ. Анализ конкретного текста и выявление влияния контекста на перевод специальных терминов.
курсовая работа [77,3 K], добавлен 09.11.2012Анализ логической основы текста информационной заметки "Украинцы мало читают". Выделение логических единиц текста (имен, суждений и связок) и приведение суждений к возможно более простой форме. Соотнесение логических единиц между собой и с контекстом.
доклад [15,6 K], добавлен 07.08.2013Лингвостилистические особенности эпистолярного текста. Приемы реорганизации субъектной структуры текста письма при переводе с английского языка на русский. Анализ писем с точки зрения лингвистических и коммуникативно-прагматических особенностей.
дипломная работа [97,5 K], добавлен 29.07.2017Понятие как основа формирования значения слова, его лексико-грамматические и лексико-понятийные категории. Соотношение между понятием и значением слов. Взаимосвязь лексического и грамматического значений слов. Сущность процесса грамматикализации.
реферат [34,2 K], добавлен 05.06.2011