Разработка и исследование метода прогнозирования популярности видеоконтента

Прогноз популярности на основе признаков настроения и содержания видео. Способ прогнозирования популярности на основе сверточной сети с долгосрочной памятью. Предсказание славы видеоконтента на основе статистики видеоконтента c помощью нейронной сети.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 19.08.2020
Размер файла 454,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

III этап: применение полносвязного слоя к OneHotEncoder представлениям категориальных признаков для понижения их размерности.

Гипотеза: тематика и актуальная популярность канала являются значимыми факторами популярности видео, планируемого к опубликованию на канале, при этом визуальные характеристики видео могут не учитываться.

Результат проверки: Гипотеза не доказана в связи с возможным нецелесообразным применением сети MLP, так как применение нейросетевых моделей менее целесообразно для анализа табличных данных.

На основе данных о применении методов прогнозирования популярности видеоконтента, представленных в обзоре литературы (раздел 3), автором исследовались различные визуальные, лингвистические характеристики заголовка как факторы популярности видеороликов.

Вместе с тем, гипотезы о достаточности этих данных для прогнозирования популярности видеороликов не подтвердились. В этой связи было предложено использовать количественные метаданные видеороликов для решения задачи (пункт 5.7) с использованием нейросетевой модели. Однако, как подтверждают практики, использование нейросетевых моделей не демонстрирует хороших результатов при обучении на табличных данных.

6. Метод прогноза популярности видеоконтента на основе статистики видеоконтента и видеоканала YouTube c помощью ансамбля деревьев

6.1 Обоснование применения ансамбля деревьев

Градиентный бустинг (далее - GB) - технология машинного обучения, используемая для задач классификации и регрессии, которая строит модель машинного обучения на основе ансамбля небольших предсказывающих моделей - обычных деревьев решений. При реализации данной технологии каждая последующая предсказывающая модель исправляет ошибки предыдущей. Таким образом, достигается защита от переобучения, обеспечивается гибкость модели в новых условиях. Кроме того, как показано в [41], данная технология успешно используется для обучения на табличных данных. Технология GB оптимальная для обучения на большом количестве разнопорядковых данных, какими являются метаданные роликов.

6.2 Этапы реализации метода

Этапы и подходы к его программной реализации метода определены исходя из следующей гипотезы: тематика и актуальная популярность канала являются значимыми факторами популярности видео, планируемого к опубликованию на канале. При этом модель также использует компактные представления заголовков и превью видео для классификации.

I этап реализации метода: применение подхода OneHotEncoder [35]¶ для кодирования категориальных признаков исследуемого видео (день недели и час публикации видео);

II этап реализации метода: подготовка признакового описания превью видео и его заголовка:

Для создания признакового описания заголовка применяется предобученная нейронная сеть BERT [42]. После подачи на вход заголовка, его признаковым описанием является среднее по скрытым состояниям нейронной сети BERT (вектор размерностью 768). Для снижения размерности признакового описания применяется метод главных компонент. В качестве признакового описания рассматривается 12 главных компонент.

Для создания компактного описания превью видео используется нейронная сеть Resnet50, предобученная на изображениях из Инстаграм [50]. Для каждого изображения она выдает счетчик популярности этого изображения. Также мы добавляем длину видео к рассматриваемым признакам.

III этап реализации метода: Применение различных реализаций ансамблей деревьев: GradientBoostingClassifier [43] (библиотека scikit-learn), RandomForestClassifier [44; 45] (библиотека scikit-learn), XGBClassifier [46] (библиотека XGBoost [47]). Gradientboosting применяется лишь к закодированным категориальным признакам и вещественным числам и к количественным метаданным видеороликов (количество просмотров, лайков и дислайков предыдущего видео, опубликованного на канале; количество подписчиков канала; дата публикации видео (измеряемая в секундах от времени проведения эксперимента). RandomForestClassifier и XGBClassifier применяются помимо этих данных к закодированным превью видео и заголовку.

Новизна подхода, предложенного автором, заключается в обучении вышеуказанных ансамблей деревьев для решения задачи прогнозирования популярности видеоконтента на данных, известных до момента публикации видео.

6.3 Методика и результаты тестирования метода

В основе методики тестирования метода - сравнение результатов прогнозирования популярности видео, полученными при применении предложенного метода, с результатами применения двух простейших моделей: первая из которых предсказывает всем рассматриваемым видео то, что будут популярными (метка “1”), а вторая модель - предсказываем всем видео, что они будут непопулярными (метка “0”).

В таблице 5 приведены данные, отражающие параметры моделей и результаты работы двух простейших методов и реализации ансамбля деревьев GradientBoostingClassifier: в колонках 1 - название модели, 2 - learning rate (размер шага обучения), 3 - число деревьев в ансамбле (num_estimators), 4 - максимальная глубина каждого дерева, в колонках 5-8 - метрики качества, посчитанные на валидационном множестве, в колонках 9-12 - метрики качества на тестовом множестве.

Таблица 5. Параметры и результаты работы двух простейших методов и GradientBoostingClassifier.

Classifier

LR

N_est

max_depth

prec_val

recall_val

roc_auc_val

accuracy_val

prec_test

recall_test

roc_auc_test

accuracy_test

All 0

-

-

-

0

0

0.5

0.77

0

0

0.5

0.84

All 1

-

-

-

0.23

1

0.5

0.23

0.16

1

0.5

0.16

GradBoost

0.1

100

3

0.645

0.543

0.72

0.82

0.60

0.43

0.69

0.86

GradBoost

0.1

1000

3

0.60

0.55

0.72

0.81

0.51

0.39

0.66

0.84

GradBoost

0.1

10000

3

0.54

0.49

0.68

0.79

0.49

0.4

0.66

0.83

GradBoost

0.01

100

3

0.65

0.38

0.66

0.81

0.62

0.29

0.63

0.86

GradBoost

0.1

100

1

0.61

0.59

0.73

0.82

0.56

0.46

0.69

0.85

GradBoost

0.1

100

2

0.62

0.54

0.72

0.82

0.6

0.45

0.69

0.86

GradBoost

0.1

100

4

0.62

0.53

0.71

0.82

0.6

0.41

0.68

0.86

GradBoost

0.1

100

5

0.61

0.54

0.72

0.81

0.6

0.41

0.68

0.86

GradBoost

0.01

10000

1

0.61

0.58

0.73

0.82

0.56

0.41

0.67

0.85

GradBoost

0.01

10000

2

0.61

0.49

0.70

0.81

0.58

0.50

0.67

0.86

В таблице 6 приведены данные, отражающие параметры моделей и результаты работы двух простейших методов и реализации ансамбля деревьев RandonForestClassifier [44]: в колонках 1 - название модели, 2 - learning rate (размер шага обучения), 3 - число деревьев в ансамбле (num_estimators), 4 - максимальная глубина каждого дерева, в колонках 5-8 - метрики качества, посчитанные на валидационном множестве, в колонках 9-12 - метрики качества на тестовом множестве.

Таблица 6. Параметры и результаты работы двух простейших методов и RandomForestClassifier.

Datatype

max_depth

n_estimators

min_leaf

acc_val

prec_val

rec_val

roc_auc_val

acc_test

prec_test

rec_test

roc_auc_test

Numerical + categorical

30

800

6

0,80754352

0,59313725

0,51054852

0,703204

0,86293436

0,59504132

0,43636364

0,69005323

Numerical + categorical

10

300

6

0,81334623

0,60891089

0,51898734

0,70993282

0,86293436

0,59504132

0,43636364

0,69005323

Numerical + categorical

30

600

4

0,81334623

0,60784314

0,52320675

0,71141517

0,86293436

0,59504132

0,43636364

0,69005323

Numerical + categorical

10

1200

6

0,81044487

0,60199005

0,51054852

0,70508606

0,86196911

0,59016393

0,43636364

0,68947918

Numerical + categorical

30

800

1

0,81141199

0,60294118

0,51898734

0,70867811

0,86196911

0,59016393

0,43636364

0,68947918

Numerical + categorical + text

20

200

1

0,8172147

0,62244898

0,51476793

0,71095988

0,87355212

0,63934426

0,47272727

0,71110531

Numerical + categorical + text

40

400

1

0,8172147

0,62765957

0,4978903

0,70503047

0,87162162

0,62903226

0,47272727

0,70995721

Numerical + categorical + text

30

400

2

0,81914894

0,6344086

0,4978903

0,70628517

0,87258687

0,63636364

0,46666667

0,70807501

Numerical + categorical + text

40

200

4

0,81624758

0,62702703

0,48945148

0,70143841

0,87258687

0,63865546

0,46060606

0,70561876

Numerical + categorical + text

30

1200

4

0,81528046

0,62234043

0,49367089

0,70229341

0,87065637

0,62809917

0,46060606

0,70447065

Numerical + categorical + text+vis

30

200

1

0,83558994

0,66341463

0,57383966

0,7436325

0,87355212

0,6328125

0,49090909

0,71847406

Numerical + categorical + text+vis

40

100

4

0,82978723

0,65803109

0,53586498

0,72652722

0,86969112

0,63157895

0,43636364

0,6940716

Numerical + categorical + text+vis

40

600

2

0,82011605

0,63076923

0,51898734

0,71432429

0,86776062

0,62068966

0,43636364

0,69292349

Numerical + categorical + text+vis

40

800

6

0,82011605

0,63076923

0,51898734

0,71432429

0,86679537

0,61538462

0,43636364

0,69234944

Numerical + categorical + text+vis

20

100

4

0,82398453

0,63681592

0,54008439

0,72424546

0,86679537

0,61538462

0,43636364

0,69234944

В таблице 7 приведены данные, отражающие параметры моделей и результаты работы двух простейших методов и реализации ансамбля деревьев XGBClassifier: в колонках 1 - рассматриваемый тип данных, 2 - максимальная глубина дерева, 3 - число деревьев в ансамбле (num_estimators), 4 - минимальное количество элементов для образования листа(min_leaf), в колонках 5-8 - метрики качества, посчитанные на валидационном множестве, в колонках 9-12 - метрики качества на тестовом множестве.

Таблица 7. Параметры и результаты работы двух простейших методов и XGBClassifier.

Datatype

max_depth

n_estimators

learning_rate

subsample

min_child_weight

acc_val

prec_val

rec_val

roc_auc_val

acc_test

prec_test

rec_test

roc_auc_test

Numerical + categorical + text+vis

7

200

0,05

0,5

1

0,83559

0,663415

0,57384

0,743633

0,873552

0,632813

0,490909

0,718474

Numerical + categorical + text+vis

1

200

0,1

0,6

1

0,821083

0,618182

0,57384

0,734222

0,869691

0,615385

0,484848

0,713722

Numerical + categorical + text+vis

3

200

0,05

0,5

3

0,833656

0,648402

0,599156

0,751272

0,871622

0,626984

0,478788

0,712413

Numerical + categorical + text+vis

3

200

0,07

0,5

3

0,837524

0,661972

0,594937

0,752299

0,875483

0,65

0,472727

0,712253

Numerical + categorical + text+vis

3

200

0,07

0,5

7

0,837524

0,661972

0,594937

0,752299

0,875483

0,65

0,472727

0,712253

Numerical + categorical + text

7

70

0,05

0,6

3

0,826886

0,646465

0,540084

0,726128

0,876448

0,645669

0,49697

0,722652

Numerical + categorical + text

7

70

0,07

0,7

6

0,818182

0,625641

0,514768

0,711587

0,873552

0,630769

0,49697

0,72093

Numerical + categorical + text

7

70

0,07

0,7

1

0,818182

0,625641

0,514768

0,711587

0,873552

0,630769

0,49697

0,72093

Numerical + categorical + text

7

80

0,05

0,6

8

0,826886

0,649485

0,531646

0,723163

0,877413

0,653226

0,490909

0,72077

Numerical + categorical + text

2

190

0,1

0,5

7

0,827853

0,637209

0,578059

0,740096

0,874517

0,637795

0,490909

0,719048

Numerical + categorical

3

70

0,07

0,5

9

0,813346

0,604762

0,535865

0,715862

0,870656

0,626016

0,466667

0,706927

Numerical + categorical

3

70

0,07

0,7

1

0,809478

0,591743

0,544304

0,716318

0,86583

0,6

0,472727

0,706513

Numerical + categorical

3

70

0,07

0,7

3

0,809478

0,591743

0,544304

0,716318

0,86583

0,6

0,472727

0,706513

Numerical + categorical

4

80

0,05

0,5

6

0,814313

0,606635

0,540084

0,717972

0,867761

0,611111

0,466667

0,705205

Numerical + categorical

4

80

0,05

0,5

7

0,814313

0,606635

0,540084

0,717972

0,867761

0,611111

0,466667

0,705205

Метрика качества “Accuracy” [48] (доля верно предсказанных объектов (в нашем случае - видеороликов) от общего количества объектов) используется как самая распространённая в рассмотренных исследованиях (раздел 3). Вместе с тем, данная метрика обладает недостатком - она является не показательной на несбалансированных (по причине неравенства долей непопулярных и популярных классов).

Для устранения этого недостатка, применены метрики, характеризующие модель более комплексно. Метрика качества “Recall” демонстрирует долю количества верно предсказанных популярных объектов (в нашем случае - видеороликов) в общем количестве фактически популярных объектов. Метрика качества “Precision” представляет собой долю правильно предсказанных популярных объектов в общем количестве предсказанных объектов. Метрика “ROC-AUC” характеризует, насколько модель правильно сортирует объекты по убыванию популярности и позволяет предсказывать разный уровень популярности объектов.

Можно заметить, что значения метрик качества прогноза на валидационном множестве выше, чем значения аналогичных метрик на тестовом множестве. Предполагается, что это объясняется порядком формирования подмножеств, описанном в пункте 2. Таким образом, допустим вывод о необходимости использовать данных последних из опубликованных видеороликов в качестве обучающей выборки.

В таблицах 4-6 приведены выборочные результаты экспериментов, проведенных с различными реализациями ансамблей деревьев. Для перебора параметров использовался поиск параметров по сетке GridSearchCV [49].

Отмечается, что лучшее значение метрики RocAuc в классификаторе RandomRandomForestClassifier достигается при использовании всех типов признаков. Однако, модель учитывающая также текстовое описание заголовка незначительно уступает в показателе RocAuc и Accuracy на тестовом множестве.

При применении XGBClassifier можно отметить, что показатели модели после учёта данных о показателях популярности превью видео показатели качества прогноза ухудшаются в сравнении с результатами применения модели, которая добавляет к вещественным признакам лишь текстовое описание заголовка.

Реализация с лучшими параметрами достигает следующих метрик качества на тестовом подмножестве: Accuracy - 0,87; Precision - 0,63; Recall - 0,49; RocAuc - 0,72 (для каждой из метрик диапазон значений - от нуля до единицы, больше - лучше).

Проведено исследование влияния признаков на значение прогноза. В диаграмме приведены данные о важности десяти признаков, оказывающих наибольшее влияние на предсказание популярности (рисунок 3) . Важность признака измеряется в долях единицы - в весе, который назначает модель этому признаку при прогнозировании популярности.

Можно заменить, что максимальное влияние на прогнозируемую популярность нового видео оказывает количество просмотров последнего опубликованного видео на канале и количество подписчиков канала. Кроме того, важными признаками являются время планируемого опубликования вновь созданного видео, а также количества дислайков предыдущего видео. Интересно отметить, что также сильно на ожидаемую популярность влияет длительность видео. Возможно, видеохостинг заинтересован в продвижении длинных видео. Также можно отметить, что визуальные признаки(в этой модели превью видео) вновь не является значимым признаков в предсказании популярности.

Рисунок 3. Диаграмма важности признаков видеоконтента

Проведенное исследование доказало наибольшую значимость следующих характеристик для прогнозирования популярности видеоконтента:

- актуализированной популярности канала (характеризуется количеством просмотров, лайков и дислайков предыдущего видео, опубликованного на канале, временным лагом от публикации этого предыдущего видео до момента предполагаемой публикации видео, задача по прогнозированию популярности которого решается);

- популярности канала (характеризуется количеством подписчиков канала, анализируемом в рамках II этапа применения модели);

- длительность видео;

- время и день публикации предыдущего видео (определяется в рамках I этапа применения метода);

- глубиной просмотра (косвенно характеризуется количеством просмотров предыдущего видео и незначительной длительностью временного лага между временем публикации предыдущего видео и того видео, количество просмотров которого прогнозируется в случае его опубликования на канале в момент эксперимента);

- содержание (контент, тема) видеоролика, который в рамках модели учитывается посредством акцента на данных канала в целом, а не отдельного ролика в частности (приоритет канала и его тематики);

- визуальные признаки превью видео;

- заголовок видео.

Примечательно, что меньшая значимость качества съемки, а значит и визуальных признаков видео как фактора популярности, а большее значение перечисленных пяти характеристик подтверждается практиками [см., напр., 40].

Заключение

В рамках данной работы критерием “популярности”, под которым в рамках данной бакалаврской работы решено считать включение (попадание) видеоролика в ТОП-20% от исследуемого множества.

В рамках работы проведён анализ применения в аналогичных исследованиях следующих методов оценки популярности видеоконтента: метод прогноза популярности при помощи признаков настроения и содержания видео; Popularity-SVR; Popularity-LRCN; Popularity prediction c помощью механизма внимания. В результате выявлены возможные элементы моделей машинного обучения, которые могут быть использованы при предложении нового метода: свёрточные сети с долгосрочной памятью, градиентный бустинг, предобученные эмбеддинги Glove.

Для анализа ранее применяемых и для тестирования предложенных методов собраны данные о признаках 11 000 видео, опубликованных на видеохостинге YouTube, для чего разработано специальное программное обеспечение (парсер), открыты 70 пользовательских счетов на видеохостинге YouTube.

Предложены и протестированы методы, использующие как табличные, так и визуальные данные видео для прогноза популярности вновь создаваемого видеоконтента:

метод прогноза популярности на основе признаков настроения и содержания видео;

метод прогнозирования популярности на основе регрессии опорных векторов;

метод прогнозирования популярности на основе сверточной сети с долгосрочной памятью;

предсказание популярности с помощью механизма внимания.

Применение этих моделей было основано на предположениях о важности визуальных признаков и (или) заголовков видео для прогнозирования популярности вновь созданного видео. Однако, визуальной информации оказалось недостаточно для предсказания популярности видео, что соответствует мнению практиков о меньшей значимости визуальных признаков и недостаточности популярного названия видеоролика для обеспечения его популярности [см., напр., 40].

Кроме того, разработаны следующие методы прогноза популярности видеоконтента:

- на основе статистики видеоконтента и видеоканала YouTube с помощью ансамбля деревьев, учитывающий только данные об актуальной активности пользователей и авторов контента видеоканала, а также время публикации на нём вновь созданного видео;

- разработана модель, учитывающая текстовые заголовки видео и превью видео

Таким образом было подтверждено, что тематика и актуальная популярность канала являются значимыми факторами популярности видео, планируемого к опубликованию на канале. Применение методов прогноза популярности видеоконтента на основе статистики видеоконтента и видеоканала YouTube с помощью ансамбля деревьев является перспективным. Лучшая модель достигает следующих значений метрик качества на тестовом подмножестве: Accuracy - 0,87; Precision - 0,63; Recall - 0,49, то есть 87% видеороликов верно классифицируется как популярные/непопулярные корректно; среди роликов, отнесённых к классу популярные, 63% являются популярными; 49% действительно популярных видеороликов определены корректно.

Учитывая, что значения метрик на валидационном подмножестве выше, чем значения аналогичных метрик на тестовом, при применении метода рекомендуется использовать данные последних из опубликованных видеороликов в составе обучающей выборки.

С помощью анализа важности для предсказания популярности признаков лучшей модели определены признаки, имеющие наибольшее влияние на значение прогноза популярности вновь созданного видео: количество просмотров, лайков и дислайков последнего ранее опубликованного видео на канале, где планируется публикация вновь созданного видео, количество подписчиков этого канала, а также время и дата планируемого опубликования вновь созданного видео. Кроме того, выявлено, что фактор опубликования видео в 23:00, в 9:00 и в четверг является важным. Предложенный метод может быть использован для прогнозирования популярности при публикации на выбранном канале YouTube.

Представляется важным, что удалось доказать важность для попадания в ТОП вновь созданного видео не только исторической популярности канала, определяемой по числу его подписчиков, но также и значение актуализированной популярности канала, которая характеризуется количеством просмотров, лайков и дислайков предыдущего видео, опубликованного на канале. Фактором популярности вновь публикуемого видеоконтента является содержание (тематика) канала, что косвенно подтверждается учётом в методе данных канала в целом, а не отдельного ролика в частности. Данный вывод подтвержден практикой: значительную долю ТОП YouTube удерживают тематические каналы и видеоролики на них.

В ходе обучения модели в тренировочное множество отнесены только те данные, которые доступны до даты публикации видео, что обеспечивает достоверность и гарантирует возможность тиражирования модели.

В рамках дальнейших исследований возможно осуществить сравнительный анализ эффективности применения всех предложенных в бакалаврской работе методов, но для их тестирования получить данные о тематически схожих и примерно одинаково популярных каналов и данные об опубликованных на них видео. Таким образом возможно осуществить прогнозирование популярности имеющих разные заголовки, визуальные и иные характеристики видео, которые планируются к публикации на этих каналах. Кроме того, в рамках совершенствования мeтода Categorical и Real numbers Gradient Boosting следует собрать и обработать данные о длительности и частоте просмотра канала постоянными пользователями (глубина просмотров) и о стабильности (периодичности) времени и количества публикаций на канале.

В качестве рисков и ограничений можно отметить, что виды метаданных, необходимых для создания метода, изменяются во времени, YouTube изменяет API, следовательно, специальное программное обеспечение, разработанное для сбора данных, будет нуждаться в постоянной доработке. Кроме того, проведение работа осложнялась тем, что отсутствуют в открытом доступе предобученные на основе данных YouTube базовые модели Машинного обучения для решения задачи прогнозирования популярности видеоконтента. Кроме того, ряд признаков видеоконтента имеют имеют лингвистические, психологические и иные характеристики. В связи с этим, для разработки новых методов оценки популярности видеоконтента целесообразно проводить междисциплинарные исследования.

Список используемой литературы

1. Alpaydin E. Introduction to Machine Learning: Adaptive Computation and Machine Learning series. The MIT Press, 2009. 584 p.

2. Chandler D., Munday R. A Dictionary of Social Media. Oxford University Press, 2016. 275 p.

3. Вицелярова К.Н. Словарь по маркетингу. Армавир, 2013. 54 с.

4. Словарь языка интернета.ru / [под ред. М.А. Кронгауза]. М.: АСТ-Пресс, 2016. 196 с.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.