Разработка и исследование метода прогнозирования популярности видеоконтента

Прогноз популярности на основе признаков настроения и содержания видео. Способ прогнозирования популярности на основе сверточной сети с долгосрочной памятью. Предсказание славы видеоконтента на основе статистики видеоконтента c помощью нейронной сети.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 19.08.2020
Размер файла 454,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Федеральное государственное автономное образовательное учреждение высшего образования

«Национальный исследовательский университет

«Высшая школа экономики»

Факультет компьютерных наук

Основная образовательная программа

Прикладная математика и информатика

Выпускная квалификационная работа

На тему: “Разработка и исследование метода прогнозирования популярности видеоконтента”

Выполнил

Шафиров Илья Леонидович

Руководитель ВКР:

Пашков Василий Николаевич

Москва 2020

Аннотация

По причине того, что видеоконтент формирует 70% интернет-трафика, а также в связи с влиянием пандемии на экономическое поведение, возрастает необходимость прогнозирования популярности видеоконтента.

Учитывая принцип Парето и подход, примененный в ранее опубликованных исследованиях, к популярным видеороликам предложено относить 20% из числа самых просматриваемых.

В рамках работы проведен обзор литературы по решению задачи прогнозирования популярности видеоконтента с использованием ряда методов машинного обучения. Предложено применение свёрточных сетей с долгосрочной памятью как методов обучения на визуальных данных и лингвистических данных заголовков видеороликов для прогноза популярности видеоконтента. Кроме того, разработаны методы прогнозирования популярности видеоконтента с помощью градиентного бустинга - ансамблей деревьев на основе статистики активности пользователей (зрителей) и авторов видеороликов на канале, периода деятельности видеоканала, превью видео, а также лингвистических характеристик заголовков видеороликов.

Для тестирования методов было разработано программное обеспечение (парсер), получены данные об 11 000 видеороликов, опубликованных не ранее двух недель и не позднее одного года от даты сбора данных на YouTube каналах в США, которых хотя бы однократно в течение этого периода включались в тренды YouTube.

Сделаны выводы о перспективности предложенных методов прогнозирования популярности видеоконтента с помощью ансамблей деревьев. Лучшая модель характеризуется следующими значениями метрик качества на тестовом подмножестве: Accuracy - 0,87; Precision - 0,63; Recall - 0,49, то есть 87% видеороликов корректно классифицируется как популярные/непопулярные; среди роликов, отнесённых к классу популярные, 63% являются популярными; 49% действительно популярных видеороликов определены корректно.

Определены признаки, имеющие наибольшее влияние на значение прогноза популярности вновь созданного видео: количества просмотров предыдущего видео и подписчиков канала, время опубликования, количество дислайков предыдущего видео, заголовок видео, количество дней с даты основания канала, а также промежуток времени до публикации предыдущего видео на канале. Предложенный метод может быть использован для прогнозирования популярности при публикации на выбранном канале YouTube.

Автором намечены направления совершенствования предложенного метода, а также выявлены следующие сложности в применении методов машинного обучения для прогнозирования популярности видеоконтента: недоступность предобученных на основе данных YouTube базовых моделей для прогнозирования популярности, а также дефицит междисциплинарных исследований по данному вопросу на пересечении сфер интересов маркетологов, аналитиков данных, лингвистов и психологов.

Ключевые слова - Прогнозирование популярности видеоконтента, Методы глубокого обучения, Машинное обучение, YouTube, Нейронные сети, Градиентный бустинг

Since video content forms 70% of Internet traffic, as well as due to the impact of a pandemic on economic behaviour, the need for predicting the popularity of video content is growing. Based on the Pareto principle, it is supposed to attribute 20% of the most viewed videos to popular videos.

As part of the work, a literature review was carried out to solve the problem of predicting the popularity of video content using several machine learning methods. The application of networks with long-term memory as training methods on visual data and linguistic data of video titles for predicting the popularity of video content is proposed. Besides, methods have been developed to predict the popularity of video content using gradient boosting - decision tree ensembles based on statistics on the activity of users (viewers) and authors of videos on the channel, the period of activity of the video channel, video previews, as well as the linguistic characteristics of the video titles.

For methods testing, software (parser) was developed, data were obtained on 11,000 videos. Videos were published not earlier than two weeks and not later than one year from the date of data collection on YouTube channels in the USA, which were in YouTube trends at least once during this period. Conclusions are drawn on the prospects of the proposed methods for predicting the popularity of video content using ensembles of decision trees. The best model is characterized by the following ?quality metrics on a test subset: Accuracy - 0.87; Precision - 0.63; Recall - 0.49, i.e. 87% of videos are correctly classified as popular / unpopular; among videos classified as popular, 63% are popular; 49% of truly popular videos are correctly identified.

The features that have the greatest influence on the forecast value of the popularity of the newly created video are determined: the number of views of the previous video and the channel's subscribers, the publication time, the number of dislikes of the previous video, the title of the video, the number of days from the date the channel was founded, and the period of time until the previous video is published on the channel. The proposed method can be used to predict popularity when publishing on a selected YouTube channel.

The author outlines the directions for improving the proposed method, and also reveals the following difficulties in the application of machine learning methods for predicting the popularity of video content: inaccessibility of basic models pre-trained on YouTube data for predicting popularity, the lack of interdisciplinary research on this issue at the intersection of the areas of interest of marketers and data analysts, linguists and psychologists.

Keywords - Video popularity prediction, Deep Learning methods, Machine Learning, YouTube, Neural Network, Gradient Boosting

Содержание

Введение

1. Цель работы

2. Постановка задачи

3. Обзор методов прогнозирования популярности видео контента

3.1 Цель и критерии обзора

3.2 Метод прогноза популярности на основе признаков настроения и содержания видео

3.3 Метод прогнозирования популярности на основе регрессии опорных векторов

3.4 Метод прогнозирования популярности на основе сверточной сети с долгосрочной памятью

3.5 Предсказание популярности с помощью механизма внимания

4. Сбор и подготовка данных о видеоконтенте

4.1 Перечень собираемых атрибутов о видео контенте

4.2 Разработка программного обеспечения

4.3 Выявление кадров видео, имеющих существенные для прогнозирования популярности данные

5. Разработка и применение методов прогнозирования популярности видеоконтента

5.1 Требования к методам

5.2 Программная реализация методов

5.3 Метод прогнозирования популярности на основе визуальных данных с помощью сети с долгосрочной памятью

5.4 Метод прогнозирования популярности на основе данных заголовка с помощью двунаправленной сети с долгосрочной памятью

5.5 Метод прогнозирования популярности на основе свёрточной сети с двунаправленной долгосрочной памятью

5.6 Многомодальный метод

5.7 Метод прогноза популярности видеоконтента на основе статистики видеоконтента и видеоканала YouTube c помощью нейронной сети

6. Метод прогноза популярности видеоконтента на основе статистики видеоконтента и видеоканала YouTube c помощью ансамбля деревьев

6.1 Обоснование применения ансамбля деревьев

6.2 Этапы реализации метода

6.3 Методика и результаты тестирования метода

Заключение

Список используемой литературы

Введение

Число пользователей Интернета постоянно увеличивается, и в 2019 году превысило 4 миллиарда человек [1]. Это обусловливает значительные финансовые расходы рекламодателей на онлайн рекламу: ранее прогнозировалось, что в 2021 году на эти расходы будет приходиться более 49% от всех расходов на рекламу в медиа [2]. Однако, в результате влияния пандемии новой коронавирусной инфекции, потребители не могут посещать публичные места, вследствие чего эксперты прогнозируют увеличение доли онлайн рекламы в бюджетах рекламодателей в странах, в которых отмечается большое количество случаев заражения [3].

Прогнозирование популярности цифрового контента является одной из задач сотрудников подразделений маркетинга рекламодателей, которые могут использовать модель предсказания популярности контента при составлении контент-планов, оценке эффективности различных каналов продвижения, а также при планировании затрат на продвижение в интернете созданных материалов. Кроме того, для тех же целей данный инструмент может быть использован блогерами и авторами контента. Социальные сети и видеохостинги, привлекающие рекламодателей, предоставляют им данные о прогнозных результатах планируемых рекламных кампаний: по количеству просмотров, количеству целевой аудитории, проценту охвата целевой аудитории, привлекательности рекламной кампании для целевой аудитории. Следовательно, перед ними также стоят задачи, связанные с прогнозированием популярности контента.

Запрос на прогноз популярности создаваемых рекламных материалов становится острее в связи с тем, что в условиях кризиса потребители изменяют структуру потребления и сокращают расходы (в США только 15,9% потребителей планируют сохранить уровень потребительских расходов) [4], а рекламодатели пересматривают свои рекламные стратегии (в США 59% рекламодателей сокращают свои расходы на рекламу в медиа, 16% планируют сохранить их на прежнем уровне, а 25% - увеличить расходы на рекламу) [4].

При этом использование видеоконтента в рекламе привлекает всё большее количество рекламодателей: если в 2017 году 63% рекламодателей использовали видео, чтобы продвигать их бизнесы, то в по итогам 2019 года это значение достигло 87% [5].

Таким образом, в рамках выпускной квалификационной работы рассматривается крайне актуальная задача прогнозирования популярности видеоконтента на основе его визуальных и временных характеристик видео, лингвистических характеристик заголовка, а также данных об активности пользователей и авторов контента на видеоканале.

Видеохостинг YouTube является лидером по числу активных пользователей: количество ежемесячно посещающих его, превышает 2 миллиарда [6]. Кроме того, YouTube является вторым самым посещаемым вебсайтом [7]. Каждый день пользователь в среднем проводит 8.4 минуты, просматривая видео YouTube [8]. Более того, из исследования, проведенного центром Пью в США, можно сделать вывод о чрезвычайно разнообразной пользовательской базе сервиса [9].

В 2019 году контент для YouTube создавало 31 млн. отдельных каналов [10]. В опросе 2019 года 62% представителей бизнесов заявили, что использовали каналы YouTube для размещения контента [11]. В этом же исследовании было выявлено, что 36,7% бизнесов публиковали контент ежемесячно, 24,3% - еженедельно, и лишь 14,5% респондентов не создавали видео контент для загрузки [11].

Доступ к широкой аудитории мотивирует многие бренды на использование YouTube для проведения масштабных маркетинговых кампаний. В 2019 году выручка YouTube от рекламы составил $15 миллиардов и увеличилась на 36% по сравнению с предыдущим годом [12]. Модель, точно предсказывающая популярность видеоконтента, позволит компаниям оптимизировать расходы на рекламу, выбирая лишь ожидаемо популярные видео для их продвижения.

Поэтому в данной работе экспериментальное исследование проводится на видеоконтенте одного из самых популярных сервисов - видеохостинге YouTube.

Ряд исследователей и практиков считают попадание в ТОП по количеству просмотров одним из самых важных критериев популярности видео [13]. Кроме того, авторы [14] обосновывают целесообразность преобразования задачи прогнозирования популярности в прогнозирование того, превышает ли рэнкинговое значение видео по количеству просмотров заданный порог. Предлагается определить данное пороговое значение для того, чтобы рассматривать публикацию как популярную в контексте принципа Парето (или правила 80-20) [15], который указывает, что примерно 80% людей фокусируются на 20% контента. Вышеизложенное позволяет оценивать как популярные только 20% самых популярных видеороликов по количеству просмотров. Наряду с данным понятием популярности видеоконтента (видеоролика), в работе используются следующие основные понятия:

- машинное обучение - наука о методах построения компьютерных алгоритмов, которые способны улучшаться, обучаясь [16];

- глубокое обучение [17] - совокупность методов машинного обучения (с учителем, с частичным привлечением учителя, без учителя, с подкреплением), основанных на моделировании представлений с использованием архитектур, состоящих из некоторого набора нелинейных преобразований;

сверточная нейронная сеть - специальная архитектура искусственных нейронных сетей, нацеленная на эффективное распознавание образов, входящая в состав технологий глубокого обучения;

градиентный бустинг [18] - технология машинного обучения, используемая для задач классификации и регрессии, которая строит модель машинного обучения на основе ансамбля небольших предсказывающих моделей - обычных деревьев решений;

задача классификации - задача по построению алгоритма, способного классифицировать произвольный объект из исходного множества на основе обучения на наборе данных, содержащих признаки данного класса [19];

YouTube канал - личный аккаунт пользователя видеохостинга YouTube, позволяющий пользователю публиковать видео [20];

видеоконтент - поток визуальных образов, передающихся преимущественно через средства массовой информации, имеющих содержание, предназначенное для зрительской аудитории [21];

видеоролик - короткий видеофильм (в контексте данной работы - любой видеоматериал, опубликованный на видеохостинге YouTube, далее по тексту - видеоконтент или видеоролик) [22];

заголовок видеоролика - название видеоролика;

лайк - кнопка, с помощью которой публикация в интернете отмечается как понравившаяся, а также сама отметка на такую кнопку [23];

дислайк - кнопка, с помощью которой публикация в интернете отмечается как не понравившаяся, а также сама отметка на такую кнопку.

В пункте 3 представлен краткий обзор ряда методов, используемых для прогнозирования популярности видеоконтента.

Для получения этих данных о видеороликах разработано специальное программное обеспечение, порядок и подходы к разработке программного обеспечения и виды полученных с его помощью данных изложены в пункт 4 данной работы.

Эти данные были обработаны с использованием предложенных автором методов, основанных на алгоритмах глубокого обучения. Результаты применения данных методов, описанные в пункте 5, свидетельствуют о малозначимости данных о визуальных характеристиках вновь созданного видео для прогнозирования его популярности.

Вместе с тем, эффективность подтвердил разработанный автором метод, основанный на обучении на данных об актуальной активности пользователей на канале, где планируется к публикации вновь созданный видеоролик, а также на данных о планируемых дате и времени публикации вновь созданного видео, о его заголовке.

Основные этапы разработки и применения нового метода, результаты его тестирования приведены в пункте 6.

1. Цель работы

Целью работы является исследование и разработка метода прогнозирования популярности для видеоконтента.

Для достижения поставленной цели необходимо решить следующие задачи:

Формализовать задачу прогнозирования популярности видеоконтента.

Провести обзор и сравнительный анализ существующих методов прогнозирования популярности видеоконтента.

Разработать и реализовать метод прогнозирования популярности видеоконтента.

Разработать методику экспериментального исследования предложенного метода.

Собрать и подготовить исходные данные на основе видеоконтента сервиса YouTube для проведения экспериментов.

Провести экспериментальное исследование метода и проанализировать полученные результаты.

Таким образом, объектом исследования, проводимого в рамках данной бакалаврской работы, является метод прогнозирования популярности видеоконтента, использующий аппарат машинного обучения; предмет исследования - подходы к разработке и применению нового метода прогнозирования популярности видеоконтента и обоснование его необходимости.

2. Постановка задачи

Пусть X - множество признаков видео (раскадровка (последовательность кадров) видео, метаданные видео, заголовок и данные о предыдущем опубликованном на канале видео, статистика YouTube канала). Прогнозируемый показатель Y - включение (попадание) видеоролика в ТОП-20% всех анализируемых роликов по количеству просмотров. Предполагается, что модель используется для предсказания популярности до момента опубликования видео.

Цель работы - решение задачи бинарной классификации определения популярности/непопулярности видео. Другими словами - требуется построить алгоритм, способный классифицировать произвольные видео:

--> Y

Разработанный метод будет тестироваться на множестве из 11 000 видеороликов YouTube, порядок размера которого соответствует наборам данным, приведенных в рассмотренных в разделе 3 исследованиях. Выбор видеороликов осуществлялся созданным в рамках работы программным обеспечением (парсером) среди видео, опубликованных на YouTube каналах, хотя бы однократно в течение года включенных в тренды США, при этом в выборку включались видео, с даты публикации которых истекло более двух недель, но не более года.

Выборка в 11 000 видеороликов разделяется на три подмножества в традиционно применяемой пропорции (80:10:10):

8 278 видео - тренировочное (обучающая выборка),

1 036 видео - валидационное (проверочное);

1 036 - тестовое.

Распределение на три подмножества происходит следующим образом: в тренировочное множество включаются видео, датированные более ранними датами, в тестовое множество - видео с наиболее поздними датами. Такое распределение позволяет гарантировать, что при обучении не используются данные, которые не могут быть доступны на момент публикации видео.

В рамках бакалаврской работы решаются задачи: сбор и подготовка данных о видеороликах, включённых в исследуемое множество, а также последующее прогнозирование включения (попадания) видеоролика в ТОП-20% всех анализируемых видеороликов по количеству просмотров.

Анализируемые данные о видеороликах относятся к следующим типам:

свойства видеоряда;

данные об активности пользователей и авторов контента на канале;

заголовок видео;

превью видео;

время и дата опубликования видео.

Оценка качества машинного обучения будет производиться на отложенном тестовом множестве, не использовавшемся в процессе обучения модели.

Критерии качества прогнозирования: метрики ROC-AUC, Accuracy, Precision, Recall.

Метрика качества “Accuracy” (доля правильно предсказанных объектов от общего количества объектов) используется как самая распространённая в рассмотренных исследованиях (раздел обзор литературы, пункт 3). Вместе с тем, данная метрика обладает недостатком - она является не показательной на несбалансированных (по причине неравенства долей непопулярных и популярных классов).

Для устранения этого недостатка, применены метрики, характеризующие модель более комплексно. Метрика качества “Recall” демонстрирует долю количества правильно предсказанных популярных объектов в общем количестве фактически популярных объектов. Метрика качества “Precision” представляет собой долю правильно предсказанных популярных объектов в общем количестве предсказанных объектов. Метрика “ROC-AUC” характеризует, насколько модель правильно сортирует объекты по убыванию популярности и позволяет предсказывать разный уровень популярности объектов. Данные четыре метрики характеризуют качество работы модели классификации в необходимом объеме, что подтверждается практиками [24].

3. Обзор методов прогнозирования популярности видео контента

3.1 Цель и критерии обзора

Целью обзора является обзор и сравнительный анализ существующих методов прогнозирования популярности видео контента для выявления характеристик, на основе которых строится прогноз, и для оценки применимости методов для решения поставленной задачи ВКР.

Сравнительный анализ методов прогнозирования популярности видео контента проводится по следующим критериям:

входные данные метода - совокупность характеристик, на основе которых осуществляется прогнозирование популярности видео;

прогнозируемый показатель - зависимая переменная, которую прогнозируют авторы при помощи предложенного метода;

описание метода - краткое описание метода, который авторы используют для предсказания;

наборы данных - наборы данных, использующиеся для обучения и тестирования метода;

метрики качества - показатели оценки качества метода;

качество метода - оценки метода по метрикам качества, полученные на основе экспериментального исследования;

применимость - оценка применимости предлагаемого метода для решения поставленной задачи ВКР.

3.2 Метод прогноза популярности на основе признаков настроения и содержания видео

В работе [25] авторы одними из первых предлагают использовать раскадровку видео для предсказания популярности видео.

Входные данные метода. Раскадровка видео, метаданные видео и ряд где - количество просмотров, которое видео v набрало за день i. Предполагается, что модель используется для предсказания в день , следовательно, нам известно количество просмотров видео до дня включительно. Метод тестируется для каждого , удовлетворяющего 1 ? ? 7.

Прогнозируемый показатель. Количество просмотров, которое видео собрало до дня = 30 включительно.

Описание метода. Метод состоит из 3 основных частей:

Обучается классификатор Extremely Randomized Trees [26]. Он предсказывает вид тренда популярности видео при помощи метаданных и ряда Всего авторами выделяются 4 вида тренда популярности, как и в статье [27]. Классификатор обучается 7 раз для каждого дня отсчета , 1 ? ? 7.

Систематизируются визуальные признаки видео для использования в модели MRBF. Каждое видео делится на отдельные кадры. Для представления визуальных признаков кадров авторы используют слой FC7 предобученной сети VGG-M-128 на датасете ImageNet. Для отображения “настроения каждого кадра” предлагается применить нейронную сеть DeepSentiBank [28], описывающую каждый кадр при помощи множества ANP (словосочетаний из пар прилагательных и существительных). DeepSentiBank возвращает 2089-мерный вектор (вероятностное распределение на набор ключевых словосочетаний), к которому применяется PCA (principal component analysis, метод главных компонентов) для понижения размерности. Один кадр путем конкатенации двух эмбеддингов. Для представления одного видео все полученные признаки кадров кодируются.

Для каждой из 4 групп в (1) обучается модель MRBF, предсказывающая количество просмотров, набранное до дня :

,

где , .

Первая часть модели использует количество просмотров, которое видео набрало за каждый из дней i вплоть до дня , для прогнозирования . Вторая часть модели основывается на предположении, что видео, визуально похожие на одни и те же элементы множества C, которое представляет собой самые визуально разнообразные и репрезентативные видео из тренировочной выборки, будут набирать примерно одинаковое количество просмотров. В качестве меры `схожести' используется Гауссова радиальная базисная функция (RBF).

Наборы данных. Метод обучается и тестируется на датасетах, названные Top и Random. В наборе данных Top содержится информация о 4 840 самых популярных видео на YouTube, а в датасете Random содержатся сведения о случайных 13 144 видео на YouTube.

Метрики качества. Для оценивания качества модели авторы предлагают использовать метрику Relative Squared Error (далее - RSE):

,

где - наблюдаемое количество просмотров видео в день . Соответственно для точности метода на всем наборе видео метрика RSE усредняется по всем в тестовой выборке.

Качество метода. В таблице 1 представлены результаты экспериментов, реализованных авторами. Возможно сделать вывод, что добавление визуальных признаков действительно способствует увеличению точности предсказания модели. Визуальные признаки играют важную роль при малом , когда не представляется возможным сделать вывод о динамике набора просмотров из-за малого количества предшествующих наблюдений.

Таблица 1. Результаты экспериментов

Day

MRBF

Content

Sentiment

Mixed

1

0,4329

0,2854

0,2846

0,2845

2

0,3606

0,2454

0,2439

0,2442

3

0,2963

0,2157

0,2161

0,2151

4

0,2461

0,1808

0,1796

0,1808

5

0,2093

0,1570

0,1571

0,1564

6

0,1847

0,1405

0,1407

0,1400

7

0,1614

0,1256

0,1250

0,1249

Mean

0,2702

0,1929

0,1924

0,1923

Day

MRBF

Content

Sentiment

Mixed

1

0,5071

0,398

0

0,3965

0,3998

2

0,3831

0,3139

0,3133

0,3133

3

0,2985

0,2587

0,2570

0,2604

4

0,2411

0,2153

0,2143

0,2126

5

0,2052

0,1825

0,1821

0,1821

6

0,1810

0,1620

0,1641

0,1635

7

0,1599

0,1453

0,1454

0,1452

Mean

0,2823

0,2394

0,2390

0,2396

Исходя из данных, приведенных в таблице 1 [25], возможно сделать вывод о том, что значения mRSE (ниже - лучше) для моделей на наборах данных Top (слева) и Random (справа). Данные в графе «Content» представляют результаты обучения на визуальных признаках видео, в качестве которых выступает слой FC7 предобученной сети VGG-M-128. Данные, приведённые в графе «Sentiment», соответствует результатам применения модели, которая использовала сеть DeepSentibank для представления визуальных признаков видео. В графе «Mixed» - результаты применения модели с комбинацией Content и Sentiment.

Применимость. В результате применения метода прогнозирования при помощи признаков настроения и содержания видео выявлено, что визуальные признаки влияют на количество просмотров. Следовательно, разрабатываемый в рамках дипломной работы метод может учитывать визуальные признаки для прогнозирования просмотров. Кроме того, доказана целесообразность использования DeepSentiBank для представления эмоциональной окраски видео. Эмоциональная окраска видео может быть учтена при прогнозировании популярности видеоконтента для разработки метода.

Использование модели MRBF для целей данной работы не представляется возможным, так как для этого необходимы данные о достигнутом количестве просмотров видео. Однако, эта информация отсутствует в отношении вновь созданного или ещё не опубликованного видео, прогнозирование популярности которого является задачей исследования.

3.3 Метод прогнозирования популярности на основе регрессии опорных векторов

В работе [29] используется модификация метода опорных векторов (SVM), а в работе [30] на основе метода регрессии опорных векторов (SVR), которая предназначена для решения задач регрессии.

Входные данные метода. В статье авторы выделяют визуальные (раскадровка видео и превью видео) и временные (количество просмотров, лайков и комментариев). Аналогично методу в 3.2 предполагается, что модель используется в день при уже известных инкрементах каждого из временных признаков видео за каждый день до .

Прогнозируемый показатель. Количество просмотров, которое видео собрало до дня = 30 включительно.

Описание метода. Метод включает в себя следующие шаги:

Из набора кадров видео выделяются признаки, описывающие визуальное наполнение видео (количество планов на видео, количество лиц в среднем на одном кадре и т.д). Эти признаки добавляются к стандартному способу представления видео при помощи усреднения выходов предобученной нейронной сети ResNet-152 для всех кадров видео.

«Популярность» превью видео оценивается при помощи Popularity API [31].

Временные и визуальные признаки из 1 и 2 объединяются и представляют представление одного видео .

Количество просмотров, которое наберет видео через дней после загрузки прогнозируется при помощи модели SVR:

,

где , - множество опорных векторов, возвращаемое SVR.

Наборы данных. Метод обучается на наборе данных из 1 820 видео с Facebook. Рассматриваются видео, которые были загружены некоторой группой пользователей. Для составления датасета использовался Graph API [31].

Метрики качества. Для оценивания качества модели авторы предлагают использовать метрику ранговый коэффициент Спирмена между наблюдаемыми и предсказываемым количествами просмотров.

Качество метода. Из рисунка 1 видим, что лучшие результаты при любом показывает модель Popularity-SVR, которая использует временные (количество просмотров и лайков) и визуальные признаки. Наибольшее расстояние между графиками наблюдается при малых .

Рисунок 1. Зависимость качества модели от количества часов, спустя которое обучалась модель с момента публикации видео

Применимость. Исходя из условия поставленной задачи по прогнозированию популярности еще не опубликованного видео, для проведения исследования в рамках бакалаврской работы не представляется возможным использовать модель Popularity-SVR, так как для её реализации необходимы временные признаки. Авторы рассматриваемой работы отмечают, что при использовании лишь визуальных признаков для предсказания количества просмотров качество не является удовлетворительным.

3.4 Метод прогнозирования популярности на основе сверточной сети с долгосрочной памятью

В работе [32] представлен метод на основе сверточной сети с долгосрочной памятью (Popularity-LRCN) , использующая сверточную сеть и рекуррентную нейронную сеть с долгой краткосрочной памятью (LSTM) для предсказания популярности видео.

Входные данные метода. Для предсказания популярности используются только N = 18 кадров видео.

Прогнозируемый показатель. В этой работе задача предсказания популярности видео рассмотрена как задача бинарной классификации. Каждому видео сопоставляется метка , равная 1, если видео i будет популярным после публикации, и 0 в ином случае. Цель модели состоит в предсказании метки . Для определения популярных видео необходимо для всего набора данных рассчитать нормализованный счетчик популярности:

нормализованный счетчик популярности = .

Популярными называются видео, нормализованный счетчик популярности которых больше медианного значения.

Описание метода. Авторы решают задачу с помощью нейронной сети, которая состоит из следующих слоёв:

Сверточных, ReLU и Pooling слоев, которые выделяют признаки видео.

LSTM ячейки, которая последовательно анализирует все кадры.

Softmax слоя, который возвращает распределение вероятностей того, что объект относится к каждому из классов.

Полную архитектуру можно увидеть на рисунке 2.

Наборы данных. Модель обучается на наборе данных из более 37 000 видео с Facebook. Набор данных состоит из видео, которые были загружены группой пользователей с 1.06.2016 по 31.09.2016. Для составления датасета использовался Graph API [31].

Метрики качества. Для оценивания качества модели авторы предлагают использовать точность классификации и ранговый коэффициент Спирмена между предсказанной вероятностью того, что видео будет популярным после загрузки, и нормализованным счётчиком популярности.

Рисунок 2. Архитектура Popularity - LRCN.

xКачество метода. Метод Popularity-LRCN показал лучшие результаты из всех моделей, которые использовали лишь признаки кадров видео для предсказания. Значения метрик качества можно найти в таблице 2.

Таблица 2. Значение метрик качества

Model

Feature

Classification accuracy

Spearman correlation

logistic

regression

HOG

0,587 ± 0,006

0,229 ± 0,014

GIST

0,609 ± 0,007

0,321 ± 0,008

CaffeNet

0,622 ± 0,007

0,340 ± 0,007

ResNet

0,645 ± 0,005

0,393 ± 0,010

SVM

HOG

0,616 ± 0,004

0,359 ± 0,008

GIST

0,609 ± 0,006

0,294 ± 0,012

CaffeNet

0,653 ± 0,003

0,395 ± 0,007

ResNet

0,650 ± 0,007

0,387 ± 0,015

Popularity-LRCN

raw video frames

0,7 ± 0,003

0,521 ± 0,009

Применимость. Метод Popularity-LRCN можно адаптировать для нашей задачи. Метод не использует прошлую динамику просмотров видео, является результативным.

3.5 Предсказание популярности с помощью механизма внимания

Авторы статьи [33] предлагают метод Attention-Based Popularity Prediction для прогнозирования популярности видео, основанный на механизме внимания нейронных сетей.

Входные данные метода. Для предсказания популярности используются N = 18 кадров видео и заголовок видео.

Прогнозируемый показатель. Задача и прогнозируемый показатель полностью идентичны с методом Popularity-LRCN.

Описание метода. Модель состоит из двух основных блоков. Первый блок обрабатывает кадры видео, а второй анализирует текстовые данные.

В блоке анализа кадров к кадрам сначала применяется нейронная сеть ResNet50. Представлением одного кадра будет являться выход предобученной ResNet50, к которому применены линейная трансформация и ReLU. Для составления признакового описания всего видео v используется взвешенная сумма представлений кадров :

,

где веса подсчитаны при помощи механизма внимания, имплементированного как двухслойная нейронная сеть. Первый слой создает скрытое представление ,

=

Второй слой возвращает «вклад» ( i-ого кадра в предсказании:

=

Для заключительного этапа подсчета, нормируются при помощи softmax.

В блоке анализа текста слова сначала закодированы при помощи GloVe. Далее, для работы с последовательностью закодированных слов применяется клетка biLSTM.

В итоге, получаем представление последовательности кадров и названия. Конкатенируем эти представления для составления признакового описания видео и используем этот новый набор признаков для прогнозирования популярности. Для этого обучаем полносвязную нейронную сеть из двух слоев.

Наборы данных. Метод обучается на наборе данных из более 37 000 видео с Facebook. Набор данных совпадает с тем, который используется в Popularity-LRCN.

Метрики качества. Для оценивания качества модели авторы предлагают использовать точность классификации и ранговый коэффициент Спирмена между предсказанной вероятностью того, что видео будет популярным после загрузки, и нормализованным счётчиком популярности.

Качество метода. Метод, использующий attention для кадров и biLSTM + GloVe для текстов оказался наиболее качественным по обеим метрикам (таблица 3).

Таблица 3. Результаты тестирования моделей.

Input

Feature

Acc, %

Spearman

Video frames

ResNet 50 vean

68,17

0,524

attention

68,87

0,526

Headline

biLSTM

69,47

0,542

attention

68,70

0,525

Multimodal

ResNet+biLSTM

71,94

0,612

attention

72,72

0,607

Применимость. Метод применим для решения нашей задачи и предлагает подходы к обработке данных разных модальностей (текст и видео). Авторы доказали, что даже при обучении нейронной сети поверх сконкатенированных признаков разной модальности, получается улучшить значения метрик качества.

На основании обзора литературы составлена сравнительная таблица методов прогнозирования популярности видеоконтента (см. табл. 4).

Таблица 4. Сравнительная таблица методов прогнозирования популярности видеоконтента.

Метод

Входные данные

Прогноз. показатель

Наборы данных

Метрики качества

Применимость

Attention-Based Popularity Prediction

18 кадров видео и заголовок видео

Нормализованный счётчик популярности

37000 видео Facebook

Accuracy,

ранговый коэфф. Спирмена

для обработки текста и видео

Popularity-

LRCN

18 кадров видео

Нормализованный счётчик популярности

37000 видео Facebook

Accuracy,

ранговый коэфф. Спирмена

для обработки видео

Popularity-SVR

раскадровка и превью, количество просмотров, лайков и комментариев

количество просмотров до дня t=30

1820 видео с Facebook

ранговый коэффициент Спирмена

не применимо, так как использует временные признаки

MRBF

раскадровка, метаданные,

количество просмотров за предыдущие дни

количество просмотров до дня t=30

дата сеты

TOP (4840), Random (13144)

относительная квадратичная ошибка

не применимо, так как используются данные о кол-ве просмотров

Первые два из вышеуказанных методов применимы для решения задачи, так как они используют те входных данные, которые доступны до опубликования видео. Таким образом, в разрабатываемом методе планируется использовать раскадровку, превью, количество просмотров, лайков и комментариев, данные о заголовке. Для оценки качества прогноза планируется использовать метрику Accuracy, а также метрики качества “Recall”, “Precision”, “ROC-AUC”, так как первая из метрик не показательна на несбалансированных наборах данных в задачах классификации.

4. Сбор и подготовка данных о видеоконтенте

4.1 Перечень собираемых атрибутов о видео контенте

На основе проведённого обзора литературы (раздел 3) выявлено, что для прогнозирования популярности видео наиболее предпочтительным является сбор следующих характеристик::

заголовок видео;

планируемая дата и время публикации видео;

возраст канала (количество дней с даты открытия канала);

количество просмотров последнего из опубликованных видео на канале; сверточный сеть видеоконтент нейронный

количество лайков и дислайков видео, предшествующего опубликованному на канале;

количество комментариев видео, предшествующего опубликованному на канале, на дату парсинга;

название видео, предшествующего опубликованному на канале;

дата и время опубликования видео, предшествующего опубликованному на канале, на дату парсинга.

4.2 Разработка программного обеспечения

Для решения задачи сбора и структурирования данных были определены следующие условия:

Количество метаданных должно обеспечивать возможность построения и обучения модели с высокой точностью предсказания.

Необходимо учитывать технические возможности видеохостинга YouTube в части возможности получения данных через приложение YouTube Data API v3.

Для решения задачи формирования набора данных было разработано программное обеспечение - парсер на языке программирования Python 3. Для повышения точности разрабатываемой модели машинного обучения для прогноза популярности видео контента будет использоваться анализ кадров из видеопотока каждого ролика. Для этого разработано приложение ffmpeg, позволяющее скачивать видеоролики с ограничением продолжительности и осуществлять их раскадровку с выбором кадра для датасета модели. Инициация запуска приложения происходит автоматически в командной строке после сбора парсером набора данных по видеороликам. Приложение проводит проверку публичного доступа видео (по собранным парсером ссылкам) и осуществляет его скачивание с разрешением 360p и ограничением в 6 минут (если видео по продолжительности превышает порог 6 минут).

Основные характеристики и этапы работы парсера:

запуск одного из трех скриптов парсинга на Python (parser, parser_new или parser_new_view_count). Тип скрипта зависит от задачи парсинга: parser - парсит данные по заданным в файле Urls.txt ссылкам на каналы; parser_new - парсит данные видео по гео локации с указанием кода страны; parser_new_view_count - парсит данные просмотра видеороликов из собранного набора данных на день запуска парсинга. Скрипт не требует инсталляции и запускается как приложение. Ход выполнения скрипта отображается в командной строке. Перед запуском скрипта необходимо в файле config прописать настройки источника ссылок на каналы (либо код страны, либо файл с введенными ссылками, либо сторонний источник с ссылками на каналы). На выходе скрипт дает csv файл с данными о видеороликах (согласно списка из п. 4.1 и сами файлы видеороликов с их картинками - превью. Также с помощью скрипта автоматизировано поведение браузера через Selenium;

драйвер для браузера, Selenium общается с браузером напрямую через этот драйвер и контролирует его работу с помощью движка самого браузера;

настройки ограничений на парсинг по списку каналов, по геопозиции, по стороннему источнику, ограничение по количеству видео для парсинга;

приложение для скачивания превью видеороликов и самих видеороликов с ограничением по продолжительности;

проверка на наличие доступа к видео на канале, на уже отработанные парсером видеоролики на прошлых запусках.

Применяемые модули и библиотеки:

asyncio - модуль для реализации асинхронного ввода-вывода в Python;

aiohttp - асинхронный HTTP клиент/сервер для asyncio и Python;

openpyxl - библиотека для записи результатов и данных в файлы Excel;

pandas - высокоуровневая Python библиотека для анализа данных;

lxml - библиотека, которая позволяет легко обрабатывать XML и HTML файлы, а также может использоваться для парсинга веб-страниц;

numpy - библиотека языка Python, добавляющая поддержку больших многомерных массивов и матриц;

aiofiles - библиотека напрямую превращает обычные синхронные вызовы в асинхронные с помощью выполнения в потоках;

requests - взаимодействие со сторонними веб-приложениями;

xlrd - утилита для копирования и изменения/фильтрования существующих файлов;

selenium - библиотека для автоматизированного тестирования веб-приложений;

iso8601 - модуль для анализа дат;

pytube3 - используется для загрузки видео из Интернета.

4.3 Выявление кадров видео, имеющих существенные для прогнозирования популярности данные

Характеристики полученных с помощью парсера видеороликов значительно варьируются: продолжительность может иметь значение от трёх секунд до трёх часов, кадры каждого из видеороликов различны по уровню наполнения объектами наблюдения, по динамичности (сменяемости кадров). Обработать каждый кадр видео не только не представляется возможным, но и рассматривается излишним: соседние кадры мало отличимы друг от друга и не несут таким образом существенной для анализа информации. При этом каждая секунда видео включает в себя 30 кадров. Для обеспечения репрезентативности видео необходимо осуществить выбор таких кадров, которые в наибольшей степени представят существенные характеристики видеоролика.

Данная задача решается в два этапа:

на всей длительности видео расставляются 10 равноудаленных отметок;

кадры, находящиеся на этих отметках, используются в качестве раскадровки.

Достаточность анализа 10 кадров каждого видеоролика обоснована опытом исследования, описанного в разделе 3 [32], в котором получены данные с однопорядкового количества кадров каждого видео.

5. Разработка и применение методов прогнозирования популярности видеоконтента

5.1 Требования к методам

Одним из главных требований к методу является возможность его применения для прогнозирования популярности еще не опубликованного видеоконтента. Быстродействие является важным критерием программного обеспечения, что в полной мере относится и к методу. Планируемые к обработке с помощью метода данные должны быть доступными, их получение не должно быть связано с большими временными и финансовыми затратами.

Для эксплуатации модели не должны требоваться недоступные пользователю технические ресурсы.

Полученные в результате применения данные должны быть точными, пригодными к использованию в практике.

5.2 Программная реализация методов

Методы прогнозирования популярности видеоконтента реализованы с использованием языка программирования Python. Нейросетевые модели имплементированы с помощью библиотеки PyTorch [34]. Ансамбли деревьев созданы на основе библиотеки scikit-learn [35]. Предобработка данных выполнена с помощью той же библиотеки. Каждый эксперимент оформлен в виде отдельного Jupyter Notebook (графическая веб-оболочка над Python). Она позволяет редактировать и запускать код в браузере и отражать результаты вычислений. Для того, чтобы воспроизвести эксперименты, представленные в данной работе, нужно последовательно выполнить все ячейки в Jupyter Notebook.

Входные данные:

последовательность 10 кадров каждого видео;

статистика и данные о предыдущем видео, собранные в таблицу формата CSV;

статистика канала;

заголовок видео.

Результатом работы программы является предсказание популярности

видео из тестового множества, а также метрики качества работы алгоритма на этом множестве.

5.3 Метод прогнозирования популярности на основе визуальных данных с помощью сети с долгосрочной памятью

При разработке данного метода использовался опыт реализации исследования популярности видеоконтента, представленный в [32] - метод LRCN.

При этом, в отличие от представленного в вышеуказанном источнике подхода, в данной бакалаврской работе предложено, вместо самостоятельного обучения сверточной нейронной сети (с нуля), использовать предобученную сеть ResNet-152, так как для обучения сверточной нейронной сети необходимо значительное количество изображений, а сеть ResNet-152 уже предобучена на большом массиве изображений ImageNet.

I этап: применение свёрточной сети (CNN) [36] в целях получения представления кадра:

каждый кадр из 10 выбранных подаётся на вход предобученной нейронной сети Resnet-152.

II этап: применение LSTM (Long short-term memory) [37] для получения признаков описания последовательности кадров

все множество получившихся в результате первого этапа представлений подаётся на вход архитектуры LSTM, которая выбрана для использования в рамках метода по той причине, что она предназначена для использования в случаях, когда подлежащие анализу данные разделены временными лагами с неопределённой продолжительностью и границами, данное свойство LSTM важно для связывания информации, содержащейся в предыдущих кадрах с исследуемым: знания о предыдущем кадре видео могут помочь в понимании текущего кадра (в отличие от обычных RNN); в целях сокращения объема обрабатываемых данных вышеуказанное свойство LSTM позволяет использовать для последующего анализа только последнее скрытое состояние LSTM;

III этап: применение двухслойной полносвязной сети и слоя soft-max к последнему скрытому состоянию LSTM для построения предсказания класса видео (класс ТОП (популярное видео) или класс непопулярного видео).

Гипотеза: Последовательность визуальных признаков и их соответствие визуальным признакам популярных видео несут достаточное количество информации для прогнозирования популярность вновь созданного видео.

Результат проверки: Гипотеза не подтвердилась, что соответствует мнению практиков о меньшей значимости визуальных признаков видео для прогноза популярности вновь созданного видео. Можно предположить, что необходимо было вновь обучать слои предобученной модели Resnet, но это сделать не удалось по причине недоступности вычислительного устройства необходимой мощности.

5.4 Метод прогнозирования популярности на основе данных заголовка с помощью двунаправленной сети с долгосрочной памятью

Для разработки данного метода использовался подход, представленный в статье [33], где предложен метод Attention-Based Popularity Prediction для прогнозирования популярности видео, основанный на механизме внимания нейронных сетей.

I этап: кодирование текстовых заголовков видео при помощи предобученных эмбеддингов Glove [38], натренированных на данных Twitter;

II этап: применение biLSTM (Long short-term memory) для получения признаков описания заголовка (применение biLTSM обосновано её способностью извлекать большую информацию о содержании текста в задачах NLP посредством обработки последовательности с двух сторон [39]; цель этапа - получение признакового описания текста);

III этап: применение двухслойной полносвязной сети и слоя soft-max для построения предсказания класса видео (класс ТОП (популярное видео) или класс непопулярного видео).

Гипотеза: привлекательный заголовок является фактором для прогнозирования популярности видеоролика.

Результат проверки: Гипотезу не удалось подтвердить при помощи данной архитектуры. Возможно, натренированные на данных Twitter Glove эмбеддинги не подходят для данной задачи. К сожалению, обучить собственные эмбеддинги не удалось из-за ограниченного количества текстовых данных.

5.5 Метод прогнозирования популярности на основе свёрточной сети с двунаправленной долгосрочной памятью

Данный метод основан на комбинировании моделей, описанных в пунктах 5.3, 5.4, с целью увеличения количества доступной информации на входе сети.

I этап: применение свёрточной сети (CNN) и biLSTM в целях получения представления видео кадров (обоснование использования аналогично вышеизложенному);

II этап: применение biLSTM (Long short-term memory) для получения признаков описания заголовка (обоснование - аналогично вышеизложенному);

III этап: конкатенация предпоследнего и последнего скрытого слоёв biLSTM для извлечения большего количества данных о заголовке.

Гипотеза: привлекательный заголовок и визуальные характеристики видео являются равнозначно и взаимодополняющими факторами для прогнозирования популярности видеоролика.

Результат проверки: Гипотеза объяснимо не подтвердилась из-за

5.6 Многомодальный метод

Данный метод основан на комбинировании моделей, описанных в пунктах 5.3, 5.4, а также добавлен один полносвязный слой.

I этап: применение свёрточной сети (CNN) в целях получения представления кадра (аналогично вышеизложенному);

II этап: применение LSTM (Long short-term memory) для получения признаков описания последовательности кадров (аналогично вышеизложенному);

III этап: применение полносвязного слоя и функции активации RELU к последнему скрытому состоянию LSTM;

IV этап: применение biLSTM (Long short-term memory) для получения признаков описания заголовка (обоснование - выше; цель этапа - получение признакового описания текста);

V этап: конкатенирование получивших признаков.

Обоснование дизайна метода: усложнение архитектуры сети (в сравнение с предыдущим методом) посредством добавления полносвязного слоя с функцией активации с целью увеличения мощности сети для извлечения её более репрезентативных визуальных признаков.

Гипотеза: привлекательный заголовок и визуальные характеристики видео являются равнозначно и взаимодополняющими факторами для прогнозирования популярности видеоролика.

Результат проверки: Гипотеза объяснимо не подтвердилась, так как даже совокупность привлекательного заголовка и визуальные характеристики видео, сходные с популярными видео, не является единственно значимым фактором популярности вновь созданного видеоконтента.

5.7 Метод прогноза популярности видеоконтента на основе статистики видеоконтента и видеоканала YouTube c помощью нейронной сети

В связи с тем, что применение предложенных автором методов, описанных в пунктах 5.3-5.6, не обеспечило возможность прогнозирования популярности видеоконтента, была рассмотрена возможность использования для обучения исключительно количественных данных видеороликов, что реализовано в модели, функционирующей в рамках следующих этапов.

I этап: применение двухслойной полносвязной сети для обработки количественных метаданных видеороликов (количество просмотров, лайков и дислайков предыдущего видео, опубликованного на канале; количество подписчиков канала; дата публикации видео (измеряемая в секундах от времени проведения эксперимента), так как вышеуказанные метаданные являются значимыми факторами и одновременно метриками популярности.

II этап: применение OneHotEncoder [35]¶ для кодирования категориальных признаков исследуемого видео (день недели и час публикации видео), так как попадание в ТОП YouTube зависит от количества просмотров и репостов в первые несколько часов после публикации, а эти количество просмотров и репостов, в свою очередь, зависят, по мнению практиков, от времени публикации в соответствующей географической локации [см., напр., 40].

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.