Перспективы оценки эффективности копирайтерского текста с помощью моделей машинного обучения

Оценка эффективности нейма как текста малого копиратйта на основе ответов респондентов. Оценка рекламного текста, где рассматриваются его качества и соответствие стандартам и требованиям креолизованного текста. Потребительская оценка исходного текста.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 21.03.2024
Размер файла 2,2 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Перспективы оценки эффективности копирайтерского текста с помощью моделей машинного обучения

Елена Юрьевна Кармалова

Алексей Дмитриевич Кривоносов

Анна Владимировна Чижик

Аннотация

В статье рассматривается вопрос оценки эффективности копирайтерского текста с помощью моделей машинного обучения. Современный копирайтинг выявляет проблему неизбежного балансирования между практической деятельностью и ее научной рефлексией, что является важной проблемой по отношению к оценке эффективности копирайтерского текста. Научный взгляд на это достаточно сложен в применении. В анализе копирайтерского необходимо соблюдение объективности оценки, что довольно затруднительно при использовании исключительно научных методов, которые непосредственно применяет сам исследователь без применения программ или тестирования.

В статье на первом этапе оценка эффективности нейма как текста малого копиратйта была проведена на основе ответов респондентов. Для исследования был собран контент неймов из 11 разных не смежных сфер бизнеса (банки; авиакомпании; доставка еды и продуктов; общественное питание и др.). Из каждой сферы бизнеса было выбрано по 4-6 брендов. В рамках проведения анализа 47 неймов была использована методика опроса с применением шкал. В полученных данных присутствует субъективная оценка респондентов, что влияет на объективность результатов: субъективность может выражаться в том, что на оценки респондентов оказывает влияние степень лояльности к бренду, опыт взаимодействия с брендом. Каждый респондент может по-разному понимать критерии для оценивания текста (нейма) в силу своих представлений, уровня образования и других факторов.

На втором этапе исследования была проведена оценка эффективности нейма с помощью машинных данных. Общий вывод проведенного эксперимента заключается в том, что обучающие наборы данных необходимо собирать для одной сферы бизнеса; также имеет смысл увеличить количество примеров (выборку объектов), подающихся на вход модели. Машинный метод оценки эффективности поможет отобрать из большого количества материала копирайтинга наиболее подходящие и эффективные варианты, а машинный алгоритм может подробно систематизировать данные для анализа.

Ключевые слова: малый копирайт; нейм; машинное обучение; анализ текстов; обработка естественного языка; векторизация текстов, классификация текстов; кластеризация текстов; оценка эффективности

Prospects for evaluating the effectiveness of copywriting text using machine learning models

Elena Yu. Karmalova, Aleksey D. Krivonosov, Anna V. Chizhik

Abstract

The article deals with the issue of evaluating the effectiveness of copywriting text using machine learning models. Modern copywriting identifies the problem of inevitable balancing between practical activity and its scientific reflection, which is an important problem in terms of evaluating the effectiveness of a copywriting text. The scientific view of this is quite difficult to apply. The analysis of copywriting requires objectivity of evaluation, which is rather difficult when using only scientific methods, which the researcher applies directly with no use of software or testing.

At the first stage of the research, the effectiveness of name as a small copywriting text was evaluated based on the respondents' answers. For the study, the content of names was collected from 11 different non-related business areas (banking; airlines; food and grocery delivery; catering, etc.), with 4-6 brands selected from each business area. As part of the research, the authors analyzed 47 names, applying a survey technique using scales. In the data obtained there is the respondents' subjective evaluation, which affects the objectivity of the results: subjectivity can be seen in the fact that the respondents' evaluations are influenced by the degree of loyalty to the brand and the experience of their interaction with the brand. Each respondent may have a different understanding of the criteria for evaluating the text (name) due to their ideas, level of education and other factors.

The second stage of the study involved evaluating the name's effectiveness with the help of machine data. The overall conclusion of the conducted experiment is that training datasets should be collected for one business area; it also makes sense to increase the number of examples (a selection of objects) submitted to the model input. The machine method of effectiveness evaluation will help to select the most appropriate and effective options from a large amount of copywriting material, and the machine algorithm can thoroughly systematize the data for analyses.

Key words: small copyright; name; machine learning; text analysis; natural language processing; text vectorization, text classification; text clusterization; efficiency evaluation

С точки зрения рекламоведения и пиарологии, копирайтинг есть «технология составления текстов в сфере рекламы и связей с общественностью, а также деятельность по составлению текстов публичных коммуникаций» [Кривоносов, Шевченко, 2018, с. 5].

Сегодня копирайтинг определяется как процесс создания продающего текста с использованием различных техник и стратегий для привлечения внимания потенциальных потребителей и убеждения их совершить желаемое действие, такое как покупка товара или услуги. Иными словами, копирайтинг - креативный и аналитический процесс, который основан на психологических и маркетинговых исследованиях, а также на знаниях о целевой общественности / аудитории. Копирайтер должен уметь проникнуть в менталитет потребителей, понять их потребности и создать текст, который будет привлекать внимание и вызывать доверие.

Под текстами малого копирайта понимаются тексты-«миниречения», занимающие сильную позицию в копирайтерском тексте, являющиеся (основными) компонентами такого текста - нейм и слоган. Традицонные компоненты рекламного и PR-текста в целом имеют свою научную рефлексию, начиная с работ Хр. Кафтанджиева, А. Д. Кривоносова [Кафтанджиев, 1996, Кривоносов, 2002].

Однако одной из основных проблем современного копирайтинга можно считать неизбежное балансирование между практической деятельностью и ее научным осмыслением. Это замечание относится в полной мере к оценке эффективности копирайтерского текста. Научный взгляд на это достаточно сложный в применении и требует большего количества времени для анализа только одного текста.

В настоящее время имеется ряд исследований, в которых представлена лингвистическая экспертиза текста [Баранов, 2007, Бринев К2009, Голев, 2002, Стернин, 2018 и др.], товарного знака [Григорьева, 2016, Дуларева, 2012]. В качестве мейн- стрим-подхода в рамках данной работы назовем исследование Л. В. Уховой «Теоретические проблемы исследования эффективности рекламного текста» [Ухова, 2013]. Хотя речь идет о рекламном тексте, мы понимаем, что данная методика подразумевает под собой применение и к продвигающему или продающему виду текста.

Предварительная оценка текста включает в себя:

определение целевой аудитории, которой предназначается контент;

анализ невербальных средств (коды визуального сопровождения текстового блока: ико- нические материалы, ассоциации);

анализ вербальных средств (анализируется характеристика аргументов, а также языковые особенности текста);

анализ структурных компонентов текста (характеристика композиционных составляющих: заголовок, основной рекламный текст (ОРТ) / основная часть текста, эхо-фраза) [Ухова, 2012, с. 199].

Предлагаются три этапа для анализа эффективности текста. В первый этап входит экспертная оценка рекламного текста, где рассматриваются его качества и соответствие стандартам и требованиям креолизованного текста. Вторым этапом является потребительская оценка исходного текста. В третий этап входит непосредственная общая оценка эффективности текста с помощью индекса эффективности, который выводит автор в научном материале. Таким образом, создается относительно объективная оценка эффективности продвигающего текста. текст оценка копирайтерский

Научные методики позволяют провести количественный и качественный анализ матер иала, изучить тенденции и закономерности в текстах. Но такие методы являются по большей степени описательными, и результаты проведенных оценок могут нести в себе субъективное мнение исследователя. Научные методы трудоемки, и процесс анализа с помощью научных методик может занимать много времени. Данные методы также не несут в себе цели провести оценку эффективности текста с точки зрения бизнеса, что является важной составляющей копирайтинга, так как в первую очередь написание текстов производится для коммерческих компаний.

Что касается бизнес-методик анализа продвигающих текстов, то довольно часто в коммерческой сфере на данный момент используют тестирование копирайтерского контента на респондентах (социологический опрос). Респондентами могут выступать целевая аудитория (ЦА), потенциальная ЦА, эксперты. Анкета для тестирования может выдаваться как в печатном виде, так и размещаться на сайте компании, рассылаться по базе данных клиентов (по электронной почте, номеру телефона (SMS-рассылка, рассылка по мессенджерам) и т.д. Данный метод используется при сборе количественных данных.

Для более глубокого анализа проводятся глубинные интервью, фокус -группы. Выборка респондентов в таких исследованиях будет меньше, однако есть возможность опросить респондентов максимально подробно. Такие исследования являются качественными. С помощью них исследователь получает всестороннюю оценку контента от респондентов. Качественные исследования являются более трудоемкими и финансово затратными.

Основными методами получения данных о реакциях потребителей являются:

задания на ранжирование;

серии прямых вопросов;

замеры отношений с помощью оценочных шкал;

выявление основополагающих реакций с помощью косвенных опросов или проективных методик [Назайкин].

Проведение таких качественных исследований с потребителями, конечно же, имеет и свои трудности. К ним относятся дороговизна и высокая длительность проведения такого рода исследований, сложность в систематизации полученных данных от респондентов, а также формулировки существенных выводов из большого количества полученных данных.

Другой метод, который применяется в бизнесе и не требует много времени в применении, - это чек-лист по основным композиционным, стилистическим, синтаксическим характеристикам текста. Его можно составить самостоятельно или найти имеющиеся чек-листы в интернете.

Эффективность контента можно измерить и с помощью оценки KPI (Key Performance Indicators - англ. `ключевые показатели деятельности'), где заранее устанавливаются цели и задачи текста с учетом этапа воронки, определяются метрики, по которым будут измерять результативность и их предполагаемое значение. Но с помощью данного метода нет возможности осуществить тестирование контента до его размещения. В данном случае мы анализируем уже полученные результаты, сравнивая их с заранее поставленной задачей. Таким способом и оценивается степень выполнения задачи, а соответственно, и эффективность текста. Данный метод в основном будет применим для текстов, размещенных в интернете.

Бизнес-методики подходят для оценки эффективности только некоторых задач, при этом с помощью перечисленных методов невозможно оценить эффективность текста с точки зрения коммуникации и общего влияния текстового контента на сознание целевой аудитории.

В анализе копирайтерского контента важно соблюдать объективность оценки, что довольно затруднительно при использовании только научных методов без применения программ или тестирования, а только с помощью инструментов, которые непосредственно применяет сам исследователь. И опрос или иные методы оценки текста респондентами так же имеют субъективный характер, что показали результаты проведенных нами исследований. В таком случае в той или иной степени на результаты анализа может воздействовать человеческий фактор, и некоторые аспекты могут содержать в себе искажение за счет влияния субъективного мнения исследователя или же респондента.

Можно сделать вывод, что в копирайтинге применяются различные методы анализа текстов и не существует единственной методики оценки эффективности контента. Следовательно, актуальна идея разработки «удобного» метода быстрой оценки его эффективности для коммерческих целей, что подразумевает делегирование первичной оценки алгоритмам машинного обучения.

Материалы и методы исследования

В рамках данной работы мы провели исследование, состоящее из двух этапов, целью первого этапа которого стала оценка эффективности собранных копирайтерских текстов на основе ответов респондентов.

Полученные данные были необходимы для дальнейшего анализа применимости методов машинного обучения к подобным текстам. Для рассмотрения возможности применимости машинного метода анализа текстов использовались методики и подходы иностранных авторов [Xiang, 2012, Abu Alfeilat, 2019, Charbuty, 2021, Grandini, 2020 Yan, 2020].

В качестве пилотного исследования были взяты тексты малого копирайта - неймы, словесные товарные знаки. Как известно, «основную долю современных товарных знаков составляют словесные товарные знаки» [Новичихина, 2019, с. 27]. Вопросы нейма и нейминга поднимались в диссертационных исследованиях М. Е. Новичи- хиной (Новичихина, 2004), И. В. Крюковой (Крюкова 2004), в работах Т. П. Романовой (Романова, 2008).

Для достижения поставленной цели мы выполнили ряд задач: выбрали 11 сфер бизнеса для отбора неймов; собрали контент; выработали критерии для оценки эффективности неймов респондентами; провели опрос респондентов; проанализировали полученные результаты.

Для исследования был собран эмпирический материал - контент неймов из 11 разных сфер бизнеса: банки; авиакомпании; доставки еды и продуктов; общественное питание; онлайн- школы; операторы сотовой связи; отели / гостиницы / апартаменты; пищевая промышленность; продуктовый ритейл; строительные компании; фитнес-клубы.

Сферы не являются смежными, что представляет исследовательский интерес для изучения разнообразных сфер бизнеса. Далее из каждой сферы бизнеса было выбрано по 4-6 брендов (количество разнится в зависимости от самой сферы), контент которых был изучен.

В рамках проведения анализа 47 неймов мы использовали методику опроса с применением шкал. Данный опрос мы создали и провели с помощью онлайн-инструмента «Google Формы». Период проведения опроса - с 11 апреля 2023 года по 25 апреля 2023 года.

Оценка текстов малого копирайта производилась по конкретно заданным критериям с использованием оценочной шкалы от «0» до «5», где:

«0» - совсем не соответствует критерию;

«1» - не соответствует критерию;

«2» - частично соответствует критерию;

«3» - средне соответствует критерию;

«4» - в целом соответствует критерию;

«5» - соответствует критерию в полной мере.

Данное тестирование с оценочной шкалой является наиболее релевантным методом для нашего исследования, так как респондентам был предоставлен обширный выбор в выставлении оценки по различным критериям, насколько это возможно. А критерии, в свою очередь, достаточно полно отражают все самые важные характеристики неймов, которые нам требуется проанализировать. Благодаря проведенному анализу мы получили количественные данные, по которым можно объективно отразить эффективность собранных копирайтерских материалов.

Итак, опрос проводится по определенным критериям. Нами были выделены следующие критерии:

соответствие сфере бизнеса;

запоминаемость;

отражение уникальных особенностей марки;

понятность;

оригинальность;

привлекательность;

выразительность.

Рассмотренные критерии мы считаем наиболее важными для анализа и оценки эффективности копирайтинга.

Важно было оценить неймы брендов различными сегментами целевой аудитории, так как зачастую это первый копирайтерский продвигающий материал, с которым сталкиваются не только потребители, но и большинство людей при взаимодействии с брендом.

Основные социально-демографические характеристики таковы: пол (мужской, женский); возрастная группа, к которой относится респондент (14-17 лет; 18-24 года; 25-34 года; 35-44 года; 45-55 лет; 55+).

Результаты первого этапа исследования: данные опроса

Проанализируем полученные данные опроса. В ходе исследования неймов было опрошено 54 респондента (из них 30 женщин и 24 мужчины).

Возрастные группы респондентов, которые принимали участие в опросе:

14-17 лет - 4 респондента (из них 2 женского пола и 2 мужского);

18-24 года - 22 респондента (из них 15 женщин и 7 мужчин);

25-34 года - 9 респондентов (из них 7 женщин и 2 мужчины);

35-44 года - 7 респондентов (из них 3

женщины и 4 мужчины);

45-54 года - 8 респондентов (из них 2

женщины и 6 мужчин);

55+ - 4 респондента (из них 2 женщины и 2 мужчины).

Для продуктивного анализа все результаты были выгружены в файл программы «Microsoft Excel».

Далее у каждого нейма (количество - 47) по каждому критерию (всего 7) высчитывалось среднее значение критерия по формуле

Все средние значения семи критериев, используемых в исследовании, высчитываются по данной формуле. Для того чтобы их высчитать, мы умножаем каждую оценку на количество проголосовавших за нее респондентов (умножение на «0» в данном случае исключается), затем складываем полученные значения и после этого делим на количество всех респондентов опроса. Если требуется, полученное число среднего значения округляется до ближайшего целого числа в соответствии с правилами округления.

Для упрощения и экономии времени обработки данных мы выполнили вычисления средних значений с помощью автоматизированной формулы «СУММ» в выгруженном нами из «Google Форм» Excel-файле. Для этого мы выделили нужный для расчета интервал ответов респондентов и поделили на количество респондентов - 54. Так мы получили целое или дробное число по каждому критерию 47 неймов, которое в соответствии с правилами округления округляем до ближайшего целого числа.

Таким образом, мы получаем таблицу со средними значениями всех семи критериев. Для удобства и наглядности оценки эффективности мы разработали классификацию, по которой быстро можно оценить эффективность того или иного продвигающего копирайтерского текста (см. Таблицу 1). Классификация эффективности текстов заключается в распределении текста по одной из 4 категорий, в зависимости от набранных текстом сумме баллов по всем (7) критериям.

Таблица 1

Классификация эффективности продвигающих текстов

Сумма баллов текста по всем критериям

Категория

Класс эффективности

0-15 б.

I

Низкий

16-21 б.

II

Средний

22-25 б.

III

Хороший

26-35 б.

IV

Высокий

Таким образом, мы определили класс для каждого текста. Итоги классифицирования позволяют сделать вывод, что большинство неймов относятся к классу с хорошей эффективностью (62 %). Их больше, чем средних текстов, в 3 раза (19 %). Неймы с низкой эффективностью отсутствуют. Данную классификацию мы далее использовали для анализа применимости алгоритмов машинного обучения к подобным текстам.

Далее более детально проанализируем полученные результаты. Средние значения в «0» и «1» балл отсутствуют, оценок в 5 баллов по какому-либо из критериев не так много: всего 5 названий брендов. Более того, нейм «Аэрофлот» собрал сразу по трем критериям 5 баллов: по критерию «соответствие сфере бизнеса», «запоминаемость» и «понятность». Это говорит о высокой эффективности нейма, так как остальные критерии («отражение уникальных особенностей марки», «оригинальность», «привлекательность», «выразительность») тоже получили высокое среднее значение - 4 балла. Нейм «Победа» имеет максимальный средний балл по критерию «запоминаемость» - 5 баллов. И название «S7 Airlines» по итогам опроса и по критерию «оригинальность» получил оценку «5». Обратим внимание, что все три нейма являются неймами авиакомпаний.

Для неймов мы создали диаграмму суммы баллов (полученных с помощью высчитывания средних значений) всех неймов по каждому из 7 критериев (см. Рисунок 1). Максимум, который можно было получить при условии, если среднее значение каждого нейма (47) получилось «5», - 235 баллов.

Рисунок 1. Диаграмма суммы баллов 47 неймов по каждому критерию

Исходя из диаграммы, мы видим, что критерий «соответствие сфере бизнеса» набрал 175 баллов из 235 возможных. Это является самым высоким результатом среди всех 7 критериев: в большинстве неймов респонденты оценили данный критерий на высокие баллы, а значит, в 74,5 % случаев неймы соответствуют своей сфере бизнеса или же так это понимают респонденты. Также только один нейм «Аэрофлот» получил среднее значение этого критерия «5», что является очень хорошими показателем для бренда. Можно сделать вывод, что сложное сужествиетльное «Аэрофлот», состоящее из двух частей: «аэро» (корень, связанный с воздухом, относящийся к авиации) и «флот» (обозначает совокупность всех судов в большом масштабе) являются для респондентов прямыми ассоциациями с авиационной сферой деятельности компании.

Мы также рассмотрели детальнее полученные данные по критерию «Запоминаемость». Здесь результаты чуть ниже, но занимают второе место по количеству баллов среди критериев. По этому критерию уже больше неймов, которые соответствуют 3 баллам - 18, но названий брендов на 4 балла все равно больше - им соответствует 27 неймов. Также по этому критерию целым двум неймам удалось получить 5 баллов - это названия «Аэрофлот» и «Победа» (отметим также, что оба бренда из сферы авиабизнеса).

Оставшиеся значения пяти критериев варьируются в интервале 153-140 баллов, что говорит нам о том, что анализируемые неймы в 60-65 % случаев соответствуют критерию.

Далее обратимся к гистограмме на рисунке 3. Наиболее эффективными по итогам опроса являются неймы брендов «Аэрофлот», «Шоколадница», «Билайн», «Fitness House» и «Самокат». Заметим, что у 3 из 5 названий (за исключением «Аэрофлота», «Билайна») критерий выразительности - 3 балла.

Рисунок 2. Диаграмма суммы баллов каждого нейма по всем критериям

Наименьшее количество баллов получил нейм «Семья» (18 б.), представляющий сферу бизнеса строительных компаний (см. Рисунок 2). Данное название компании получило оценку «2» по критериям «оригинальность», «привлекательность», «выразительность»: это свидетельствует об ординарности и о широте понимания такого нейма. Он совершенно не отражает сферу деятельности компании.

Также близкие по количеству баллов эффективности к нейму «Семья» неймы «Совкомбанк» и «РСТИ» (см. Рисунок 2). У «Совкомбанк» низкие баллы по критериям «оригинальность» и «выразительность», что свидетельствует об «упрощенности» нейма и отсутствии у респондентов впечатлений от него. У нейма «РСТИ» страдают другие критерии - «запоминаемость» и «отражение уникальных особенностей марки», так как нейм состоит из аббревиатуры, которую тяжело запомнить. Однако для строительных компаний характерно использование аббревиатур - «РСТИ», «НДС».

Семантика неймов ниши продуктового ритейла не имеет прямой корреляции со своей сферой бизнеса, и вне контекста данные названия могут быть использованы и в других сферах бизнеса. Однако большинство неймов все-таки образованы от слов, семантически связанных с той или иной сферой бизнеса.

Таким образом, мы можем подвести итоги оценки эффективности неймов брендов, проведенной при помощи опроса респондентов. В полученных данных исследования присутствует субъективная оценка респондентов, что в целом, на наш взгляд, влияет на объективность результатов. Во-первых, субъективность может выражаться в том, что на оценки респондентов оказывает влияние степень лояльности к бренду, отношение, опыт взаимодействия с брендом. Во - вторых, каждый респондент может по -разному понимать критерии для оценивания копирайта в силу своих представлений, уровня образования и других факторов. В итоге есть вероятность получить нерепрезентативные и необъективные результаты.

Результаты второго этапа исследования: оценка целесообразности применимости алгоритмов машинного обучения

Одной из целей данного этапа исследования стал анализ применимости алгоритмов классического машинного обучения к продающим и продвигающим текстам. Собранный массив текстовых данных мы использовали для проверки гипотезы о том, что статистические подходы к анализу текстов (т.е. применение ml-моделей) могут выявить скрытые закономерности между отдельными критериями (набор критериев, которые были предложены респондентам) и успешностью копирайта в целом. Подтверждение этой гипотезы может вести к разным стратегиям, например: если применимость машинного обучения подтверждается, то их можно использовать для автоматизации (или частичной автоматизации) проводимой оценки; апеллирование к скрытым закономерностям может дополнять оценку экспертов, так как речь идет о взаимосвязях, кот о- рые человеческим глазом неуловимы, но заметны при анализе статистических данных. Иными словами, проверка целесообразности применения ml-моделей к подобным текстам - актуальная проблема, которая позволит обновить и дополнить существующие методологии эффективности копирайтерских текстов.

Подчеркнем, что данный метод не может являться полной заменой опроса респондентов или оценки экспертов: на эффективность текста могут влиять профессиональные знания, культура, менталитет, особенности языка, а разработать универсальный алгоритм, который учитывает все эти, эфемерные с точки зрения математики, факторы представляется задачей из далекого будущего. Таким образом, стоит рассматривать применение алгоритмов машинного обучения к поставленной задаче с точки зрения автоматизации процесса первичной оценки созданных / подобранных текстов, который из множества вариантов сможет отфильтровать абсолютно неподходящие.

Для того чтобы проверить возможность нахождения закономерностей в текстах данного типа, мы воспользовались ранее созданной разметкой на 4 класса: низкая (0), средняя (1), хорошая (2) и отличная (3) эффективность текста. Логика разделения на классы описана выше.

Прежде чем обратиться к обучению модели мультиклассовой классификации, мы решили исследовать данные методом кластеризации, чтобы удостовериться, что в текстах действительно есть закономерности, которые с математической точки зрения заметны. Такая постановка задачи в машинном обучении называется обучением без учителя, или обучением на неразмеченных данных. Таким образом, на этом этапе анализа данных мы использовали тексты и баллы, поставленные респондентами по каждому критерию. Целевую переменную (класс) из данных мы исключили. Про задачу обучения без учителя можно думать как про задачу восстановления распределения данных: понимание того, как объекты распределены в пространстве признаков, какие наиболее характерные значения у них есть, где объектов мало, а где они лежат плотным облаком.

Формальная постановка задачи кластеризации [Ahuja, 2020, р. 225-248.] может быть представлена следующим образом: пусть X - множество объектов, Y - множество номеров (имен, меток) кластеров. Задана функция расстояния между объектами p(x,x'). Имеется конечная обучающая выборка объектов Xm={x1,...,xm}cX. Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике p, а объекты разных кластеров существенно отличались. При этом каждому объекту x,eXm приписывается номер кластера yi.

Алгоритм кластеризации - это функция a:X-Y, которая любому объекту хЄХ ставит в соответствие номер кластера уЄУ. Множество Y в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.

Таким образом, задачу кластеризации можно описать как разбиение объектов на однородные группы. Итак, с помощью кластерного анализа мы решили проверить, разобьется ли набор данных на 4 кластера (что соответствовало бы выделенным ранее вручную 4 классам). Кластер иза- ция была проведена с использованием алгоритма K-средних [Ahmed, 2020, p. 1295], так как он позволяет задать количество искомых кластеров. Данные разделились на кластеры, что показало нам наличие в них закономерностей, которые уловимы с точки зрения математики. Однако в данном случае алгоритм изучал пространство признаков с учетом оценок респондентов, то есть в данном случае мы проверили сам факт того, что скрытые закономерности в оценках есть, они улавливаются простейшей моделью кластеризации, а значит, на этих данных можно обучать алгоритмы классификации. Результаты выглядели настолько обнадеживающе, что мы решили провести кластеризацию, используя в качестве подаваемых на вход модели данных только тексты. В этом случае данные разбились гораздо хуже. Это значит, что хотя в результате обучения модель кластеризации может для нового объекта определить номер кластера, к которому этот объект с ее точки зрения принадлежит, но ее использование для подобного рода текстовых данных без дополнительных категориальных признаков представляется затруднительным. Кроме того, кластеризация является в каком-то смысле «слепым» методом, при котором данные разбиваются по похожести друг на друга, но эта похожесть больше продиктована векторным пространством, нежели управляемой логикой. Именно поэтому использование оценок респондентов существенно улучшало разбиение данных на кластеры: алгоритм «понимал» идейный смысл похожести текстов (по категориальным признакам, которыми являлись оценки респондентов по отдельным критериям), и, таким образом, разбиение становилось более логичным и репрезентативным.

Полученные результаты кластеризации показывают, что количество объектов в кластерах неравное, к тому же не все объекты одинаково тяготеют к центроиду. Поэтому мы решили провести EDA-исследование, целью которого было выявить логику распределения баллов респондентов (и это могло помочь нам сделать выводы по настройке итоговой ML-модели на последнем шаге), проанализировать взаимосвязь двух конкретных критериев друг с другом.

К примеру, изучение взаимосвязи критериев «оригинальность» и «выразительность» дало понимание, что чем выше значение оценки оригинальности, тем выше значения и выразительности - это касается всех оценок, за исключением «5». Чтобы лучше изучить закономерности, была построена матрица корреляций, которая дает возможность посмотреть вклад каждого критерия в судьбу оценки нейма. В матрице отображается коэффициент взаимосвязи критериев, который поможет определить, какие именно критерии влияют друг на друга. На рисунке 3 мы видим, что такие пары критериев, как соответствие сфере бизнеса и запоминаемость; оригинальность и отражение уникальных особенностей марки; выразительность и отражение уникальных особенностей марки имеют очень низкую корреляцию друг с другом: от 0.18 до 0.23.

Рисунок 3. Матрица корреляций критериев по неймам брендов

Таким образом, наиболее высокая корреляция у критериев «соответствие сфере бизнеса» и «понятность»; «выразительность» и «привлекательность»; «оригинальность» и «привлекательность». Это также наводит на мысль, что выраженные коэффициенты в матрице могут быть далее предсказаны на новых данных с помощью математического аппарата.

Все это доказывает, что единственно верный путь к автоматизации оценки неймов - муль- тиклассовая классификация текстов.

Собранные данные уже были размечены на предыдущем этапе на 4 класса, это позволило сразу же обратиться к обучению ml-моделей. Набор данных был разделен на обучающую и тестовую выборки в соотношении 70 % к 30 %. Данное разделение позволило качественно обучить модель, а также оставить для проверки качества ее работы достаточно данных. Стоит отметить, что в нашем случае стояла задача несбалансированной классификации, так как для одного из выделенных классов в выборке присутствовало существенно меньше примеров, чем для остальных (этот факт отражен в предыдущем разделе). Мы применили reweighting-подход для того, чтобы модель точнее работала с классами, в которых примеров в разы меньше [Yan, 2020, р. 1-19]. Этот подход заключался в том, что объектам малого класса назначался больший вес в функционале ошибки. То есть за ошибку на малом классе штраф был выше, чем за ошибку на большем. При подготовке данных мы также учли выявленные закономерности корреляции признаков и отсеяли ненужные критерии оценок [Xiang, 2012, р. 1738-1754]. Мы обучили две модели классификации: 1) на основе метода k- ближайших соседей (k-nearest neighbors) [Abu Alfeilat, 2019, р. 221-248]; 2) и на основе дерева решений (Decision Trees) [Charbuty, 2021, р. 2028]. F-мера была выбрана для оценки точности работы классификатора. Она сводит к одному числу две других основополагающих метрики: точность и полноту, представляя собой гармоническое среднее между ними [Grandini, 2020]. К тому же в отличие от Accuracy (точность) более чувствительна к оценке несбалансированной классификации. Метрика качества дала результат 0.60-0.70 для обеих моделей и всех вариантов обучения, что в целом является оптимистичным результатом, так как наши данные неоднородны, используются неймы брендов из разных сфер бизнеса, имеющие свои особенности.

Общий вывод эксперимента заключается в том, что обучающие наборы данных необходимо собирать для одной сферы бизнеса, также имеет смысл увеличить количество примеров (выборку объектов), подающихся на вход модели.

Выводы

Предварительная оценка эффективности текстов в зависимости от их особенностей с помощью машинного метода возможна и является удобным и объективным способом для одного из этапов оценки эффективности текстов перед тем, как использовать копирайтинг в работе - а именно перед оценкой текста с помощью других методик. Машинный метод оценки эффективности поможет отобрать из большого количества материала копирайтинга наиболее подходящие и эффективные варианты, а также машинный алгоритм подробно может систематизировать данные для анализа. Можно предположить, что в рамках дальнейшего развития компьютерных технологий это направление будет расширяться. На данном этапе нам на примере текстов малого копирайта удалось показать их использование для анализа и оценки эффективности продвигающего и продающего текста.

Библиографический список

Баранов А. Н. Лингвистическая экспертиза: теория и практика : учебное пособие. Москва : Флинта : Наука, 2007. 592 с.

Бринев К. И. Теоретическая лингвистика и судебная лингвистическая экспертиза. Барнаул, 2009. 252 с.

Григорьева Э. Л. Сопоставительный анализ при проведении лингвистической экспертизы товарных знаков // Сопоставительные исследования 2016 / научн. ред. А. И. Стернин. Воронеж : Истоки, 2016. С. 184-192.

Голев Н. Д., Матвеева О. Н. Значение лингвистической экспертизы для юриспруденции и лингвистики // Цена слова : Из практики лингвистических экспертиз текстов СМИ в судебных процессах по искам о защите чести, достоинства и деловой репутации / под ред. проф. М. В. Горбаневского. 3-е изд., испр. и доп. Москва : Галерия, 2002. 183 с.

Дударева Я. А. Методика определения ассоциативного сходства товарных знаков: пропозициональный анализ // Вестник Кемеровского государственного университета. Кемерово, 2012. Вып. 1. С. 143-148.

Кафтанджиев Хр. Тексты печатной рекламы.

Москва : Смысл, 1995. 134 с.

Кривоносов А. Д. PR-текст как инструмент публичных коммуникаций. Санкт-Петербург, 2002. 388 с.

Кривоносов А. Д., Шевченко А. С. Копирайтинг и спичрайтинг : учебное пособие. Санкт-Петербург : Изд-во СПбГЭУ 2018. 66 с.

Крюкова И. В. Рекламное имя: от изобретения до прецедентности. Волгоград, 2004. 360 с.

Назайкин А. Н. Методы и критерии тестирования рекламы / сайт Александра Назайкина. URL: http://www.nazaykin.ru/AD/effect/metody_i_kriterii.htm (дата обращения: 23.03.2023).

Новичихина М. Е. Теоретические проблемы коммерческой номинации. Воронеж, 2004. 351 с.

Новичихина М. Е. Товарный знак: вопросы функционирования и лингвистической экспертизы. Воронеж : Кварта, 2019. 108 с.

Романова Т. П. Теория и методика создания коммерческих наименований и рекламных текстов : учебное пособие. Самара : Универс-групп, 2008. 155 с.

Стернин И. А. Основы лингвокриминалисти- ки : учебное пособие. Воронеж : изд. дом ВГУ, 2018. 300 с.

Ухова Л. В. Методика оценки эффективности рекламного текста // Вестник ИГЛУ 2012. №3 (20). С. 196-206.

Ухова Л. В. Теоретические проблемы исследования эффективности рекламного текста. Ярославль, 2013. 452 с.

Ahmed M., Seraj R., Islam S. M. S. The k-means algorithm: A comprehensive survey and performance evaluation // Electronics. 2020. V 9. №. 8. P 1295.

Abu Alfeilat H. A. et al. Effects of distance measure choice on k-nearest neighbor classifier performance: a review // Big data. 2019. Т 7. №. 4. С. 221-248.

Charbuty B., Abdulazeez A. Classification based on decision tree algorithm for machine learning //Journal of Applied Science and Technology Trends. 2021. Т 2. №. 01. С. 20-28.

Grandini M., Bagli E., Visani G Metrics for multi-class classification: an overview // arXiv preprint arXiv:2008.05756. 2020.

Xiang S. et al. Discriminative least squares regression for multiclass classification and feature selection // IEEE transactions on neural networks and learning systems. 2012. V. 23. №. 11. P 1738-1754.

Yan C. et al. Self-weighted robust LDA for multiclass classification with edge classes // ACM Transactions on Intelligent Systems and Technology (TIST). 2020. V 12. №. 1. P 1-19.

Reference list

Baranov A. N. Lingvisticheskaja jekspertiza: teorija i praktika = Linguistic expertise: theory and practice : uchebnoe posobie. Moskva : Flinta : Nauka, 2007. 592 s.

Brinev K. I. Teoreticheskaja lingvistika i sudebnaja lingvisticheskaja jekspertiza = Theoretical linguistics and forensic linguistic expertise. Barnaul, 2009. 252 s.

Grigor'eva Je. L. Sopostavitel'nyj analiz pri provedenii lingvisticheskoj jekspertizy tovarnyh znakov = Comparative analysis in linguistic examination of trademarks // Sopostavitel'nye issledovanija 2016 / nauchn. red. A. I. Sternin. Voronezh : Istoki, 2016. S. 184-192.

Golev N. D., Matveeva O. N. Znachenie lingvisticheskoj jekspertizy dlja jurisprudencii i lingvisti- ki = Importance of linguistic expertise for law and linguistics // Cena slova : Iz praktiki lingvisticheskih jek- spertiz tekstov SMI v sudebnyh processah po iskam o zashhite chesti, dostoinstva i delovoj reputacii / pod red. prof. M. V. Gorbanevskogo. 3-e izd., ispr. i dop. Moskva : Galerija, 2002. 183 s.

Dudareva Ja. A. Metodika opredelenija associa- tivnogo shodstva tovarnyh znakov: propozicional'nyj ana- liz = Methodology for determining associative similarity of trademarks: propositional analysis // Vestnik Kemerov- skogo gosudarstvennogo universiteta. Kemerovo, 2012. Vyp. 1. S. 143-148.

Kaftandzhiev Hr. Teksty pechatnoj reklamy = Printed advertisements text. Moskva : Smysl, 1995. 134 s.

Krivonosov A. D. PR-tekst kak instrument publich- nyh kommunikacij = PR-text as a tool of public communications. Sankt-Peterburg, 2002. 388 s.

Krivonosov A. D., Shevchenko A. S. Kopirajting i spichrajting = Copywriting and speechwriting : uchebnoe posobie. Sankt-Peterburg : Izd-vo SPbGJeU, 2018. 66 s.

Krjukova I. V. Reklamnoe imja: ot izobretenija do precedentnosti = Advertising name: from the invention to precedents. Volgograd, 2004. 360 s.

Nazajkin A. N. Metody i kriterii testirovanija

reklamy = Methods and criteria for advertisement testing / sajt Aleksandra Nazajkina. URL:

http ://www.nazaykin. ru/AD/effect/metody_i_kriterii. htm (data obrashhenija: 23.03.2023).

Novichihina M. E. Teoreticheskie problemy kommercheskoj nominacii = Theoretical problems of commercial naming. Voronezh, 2004. 351 s.

Novichihina M. E. Tovarnyj znak: voprosy funkcionirovanija i lingvisticheskoj jekspertizy = Trademark: issues of functioning and linguistic expertise. Voronezh : Kvarta, 2019. 108 s.

Romanova T. P. Teorija i metodika sozdanija kommercheskih naimenovanij i reklamnyh tekstov = Theory and methodology of creating commercial names and advertising copies : uchebnoe posobie. Samara : Univers- grupp, 2008. 155 s.

Sternin I. A. Osnovy lingvokriminalistiki = Basics of linguistic forensics : uchebnoe posobie. Voronezh : izd. dom VGU, 2018. 300 s.

Uhova L. V. Metodika ocenki jeffektivnosti reklamnogo teksta = Methodology for assessing the effectiveness of an ad copy // Vestnik IGLU. 2012. №3 (20). S. 196-206.

Uhova L. V. Teoreticheskie problemy issledovan- ija jeffektivnosti reklamnogo teksta = Theoretical problems of studying the effectiveness of advertising text. Jaroslavl', 2013. 452 s.

Ahmed M., Seraj R., Islam S. M. S. The k-means algorithm: A comprehensive survey and performance evaluation // Electronics. 2020. V. 9. №. 8. P. 1295.

Abu Alfeilat H. A. et al. Effects of distance measure choice on k-nearest neighbor classifier performance: a review // Big data. 2019. T. 7. №. 4. S. 221-248.

Charbuty B., Abdulazeez A. Classification based on decision tree algorithm for machine learning //Journal of Applied Science and Technology Trends. 2021. T 2. №. 01. S. 20-28.

Grandini M., Bagli E., Visani G Metrics for multi-class classification: an overview // arXiv preprint arXiv:2008.05756. 2020.

Xiang S. et al. Discriminative least squares regression for multiclass classification and feature selection // IEEE transactions on neural networks and learning systems. 2012. V 23. №. 11. P 1738-1754.

Yan C. et al. Self-weighted robust LDA for multiclass classification with edge classes // ACM Transactions on Intelligent Systems and Technology (TIST). 2020. V 12. №. 1. P 1-19.

Размещено на Allbest.ru

...

Подобные документы

  • Структура текста, морфологический уровень. Исследование текста с лингвистической точки зрения. Прямонаправленная и непрямонаправленная связность текста. Важность морфологического уровня текста в понимании структуры текста и для понимания интенции автора.

    реферат [30,4 K], добавлен 05.01.2013

  • Понятие текста в концепциях лингвистов и психолингвистов, его основные характеристики, свойства и функции. Подходы к его описанию. Природа и процесс порождения текста. Механизмы и особенности его восприятия на примере анализа художественного произведения.

    курсовая работа [47,8 K], добавлен 15.01.2014

  • Современные подходы интерпретации анализа художественно-прозаического текста с учетом его специфики, базовых категорий и понятий. Рассмотрение художественного текста как единства содержания и формы. Практический анализ текста "A Wicked Woman" Дж. Лондона.

    курсовая работа [48,5 K], добавлен 16.02.2011

  • Ознакомление со структурно-функциональными и лингвистическими особенностями креолизованного текста. Анализ методических рекомендаций по применению креолизованного текста в обучении французскому языку. Рассмотрение процесса формирования языковых навыков.

    дипломная работа [3,5 M], добавлен 22.07.2017

  • Теоретические основы изучения текста. Разграничение текста и дискурса. Понятие текста и подходы к его анализу. Употребление терминов texte и discours во французском языке. Сравнительно-сопоставительное исследование текста астрологического прогноза.

    дипломная работа [204,5 K], добавлен 03.07.2009

  • Характерные черты и особенности построения креолизованного текста в комиксах. Исследование паралингвистических средств в тексте как основной единицы языковой коммуникации. Место креолизованных текстов в системе текстов, их структурные особенности.

    курсовая работа [727,2 K], добавлен 30.10.2014

  • Работа с текстом на английском языке. Чтение и устный перевод текста, усправление неверных утверждений. Ответы на вопросы по содержанию текста. Образование словосочетаний, обозначающих методы тестирования и оценки, используемые при отборе кандидатов.

    контрольная работа [20,9 K], добавлен 08.03.2015

  • Анализ логической основы текста информационной заметки "Украинцы мало читают". Выделение логических единиц текста (имен, суждений и связок) и приведение суждений к возможно более простой форме. Соотнесение логических единиц между собой и с контекстом.

    доклад [15,6 K], добавлен 07.08.2013

  • Возможности единиц языка. Передача содержания текста и его смысла. Владение основными речеведческими понятиями, умение определять стиль текста, тип речи, средства связи предложений в тексте. Тенденции слияния обучения языку и речи в единое целое.

    творческая работа [248,3 K], добавлен 19.08.2013

  • Англоязычные тексты инструкций, контрактов и рекламные тексты, их типологические характеристики. Коммуникативное задание текста, источник текста, получатель текста, тип информации (когнитивная, эмоциональная, эстетическая) и доминанты перевода.

    учебное пособие [1,8 M], добавлен 12.12.2010

  • Разновидности структуры текста. Основные правила написания введения, основной части и заключения. Выбор названия и заголовков. Логичность текста, правильная организация его частей, связность предложений между собой. Простые и сложные предложения.

    презентация [55,2 K], добавлен 23.11.2015

  • Понятие перевода как текста. Содержательная структура текста их переводческая типология. Ценность информации и сообщения. Формальные и смысловые связи между высказываниями. Последовательность и связность изложения. Формальная связность текста.

    презентация [44,7 K], добавлен 29.07.2013

  • Лингвостилистические особенности эпистолярного текста. Приемы реорганизации субъектной структуры текста письма при переводе с английского языка на русский. Анализ писем с точки зрения лингвистических и коммуникативно-прагматических особенностей.

    дипломная работа [97,5 K], добавлен 29.07.2017

  • Герменевтические принципы и категории исследования текста в лингвистике. Система отношений автор-текст-читатель. Прецедентные структуры языка как способы выражения скрытых смыслов у И.А. Бунина. Пространственно-временной континуум художественного текста.

    дипломная работа [104,7 K], добавлен 18.07.2014

  • Характеристика методов и приемов обучения аудирования на среднем этапе обучения. Теоретические основы обучение аудированию иноязычного текста. Отличительные черты этапов формирования и диагностики навыков и умений аудирования текста у учащихся в 6 классе.

    дипломная работа [12,1 M], добавлен 17.09.2010

  • Порядок логического построения текста – синтаксической единицы с последовательностью предложений. Анализ классификации текста, отличающейся по форме материала (устный, письменный), по социальному предназначению (учебные, научные, художественные, деловые).

    творческая работа [15,9 K], добавлен 27.03.2010

  • История отечественного терминоведения. Выявление лексических и семантических особенностей специального текста для применения этих знаний в практике моделирования семантики специального текста. Требования к терминам, их анализ. Понятие фоновой лексики.

    курсовая работа [106,3 K], добавлен 14.11.2009

  • Изучение вопросов об определении поэтической функции языка, понятие лингвистической поэтики. Сцены как вариативное начало в составе рамки содержательной конструкции текста. Понятие содержания текста. Цельный versus комплексный анализ интенции текста.

    реферат [38,4 K], добавлен 14.08.2010

  • Использование фразеологизмов в речи. Идиоматика художественного текста как общелингвистическая проблема. Анализ идиоматики фразеологических сращений английского текста. Проблемы интерпретации художественного текста в рамках определенной лингвокультуры.

    дипломная работа [154,4 K], добавлен 06.06.2015

  • Использование переводческих трансформаций при переводе английского исторического текста. Лингвистические проблемы перевода. Стилистический разбор текста. Особенности лексического, семантического и синтаксического устройства художественного текста.

    курсовая работа [57,4 K], добавлен 18.05.2016

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.