Разработка и исследование метода прогнозирования популярности видеоконтента
Прогноз популярности на основе признаков настроения и содержания видео. Способ прогнозирования популярности на основе сверточной сети с долгосрочной памятью. Предсказание славы видеоконтента на основе статистики видеоконтента c помощью нейронной сети.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 19.08.2020 |
Размер файла | 454,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
III этап: применение полносвязного слоя к OneHotEncoder представлениям категориальных признаков для понижения их размерности.
Гипотеза: тематика и актуальная популярность канала являются значимыми факторами популярности видео, планируемого к опубликованию на канале, при этом визуальные характеристики видео могут не учитываться.
Результат проверки: Гипотеза не доказана в связи с возможным нецелесообразным применением сети MLP, так как применение нейросетевых моделей менее целесообразно для анализа табличных данных.
На основе данных о применении методов прогнозирования популярности видеоконтента, представленных в обзоре литературы (раздел 3), автором исследовались различные визуальные, лингвистические характеристики заголовка как факторы популярности видеороликов.
Вместе с тем, гипотезы о достаточности этих данных для прогнозирования популярности видеороликов не подтвердились. В этой связи было предложено использовать количественные метаданные видеороликов для решения задачи (пункт 5.7) с использованием нейросетевой модели. Однако, как подтверждают практики, использование нейросетевых моделей не демонстрирует хороших результатов при обучении на табличных данных.
6. Метод прогноза популярности видеоконтента на основе статистики видеоконтента и видеоканала YouTube c помощью ансамбля деревьев
6.1 Обоснование применения ансамбля деревьев
Градиентный бустинг (далее - GB) - технология машинного обучения, используемая для задач классификации и регрессии, которая строит модель машинного обучения на основе ансамбля небольших предсказывающих моделей - обычных деревьев решений. При реализации данной технологии каждая последующая предсказывающая модель исправляет ошибки предыдущей. Таким образом, достигается защита от переобучения, обеспечивается гибкость модели в новых условиях. Кроме того, как показано в [41], данная технология успешно используется для обучения на табличных данных. Технология GB оптимальная для обучения на большом количестве разнопорядковых данных, какими являются метаданные роликов.
6.2 Этапы реализации метода
Этапы и подходы к его программной реализации метода определены исходя из следующей гипотезы: тематика и актуальная популярность канала являются значимыми факторами популярности видео, планируемого к опубликованию на канале. При этом модель также использует компактные представления заголовков и превью видео для классификации.
I этап реализации метода: применение подхода OneHotEncoder [35]¶ для кодирования категориальных признаков исследуемого видео (день недели и час публикации видео);
II этап реализации метода: подготовка признакового описания превью видео и его заголовка:
Для создания признакового описания заголовка применяется предобученная нейронная сеть BERT [42]. После подачи на вход заголовка, его признаковым описанием является среднее по скрытым состояниям нейронной сети BERT (вектор размерностью 768). Для снижения размерности признакового описания применяется метод главных компонент. В качестве признакового описания рассматривается 12 главных компонент.
Для создания компактного описания превью видео используется нейронная сеть Resnet50, предобученная на изображениях из Инстаграм [50]. Для каждого изображения она выдает счетчик популярности этого изображения. Также мы добавляем длину видео к рассматриваемым признакам.
III этап реализации метода: Применение различных реализаций ансамблей деревьев: GradientBoostingClassifier [43] (библиотека scikit-learn), RandomForestClassifier [44; 45] (библиотека scikit-learn), XGBClassifier [46] (библиотека XGBoost [47]). Gradientboosting применяется лишь к закодированным категориальным признакам и вещественным числам и к количественным метаданным видеороликов (количество просмотров, лайков и дислайков предыдущего видео, опубликованного на канале; количество подписчиков канала; дата публикации видео (измеряемая в секундах от времени проведения эксперимента). RandomForestClassifier и XGBClassifier применяются помимо этих данных к закодированным превью видео и заголовку.
Новизна подхода, предложенного автором, заключается в обучении вышеуказанных ансамблей деревьев для решения задачи прогнозирования популярности видеоконтента на данных, известных до момента публикации видео.
6.3 Методика и результаты тестирования метода
В основе методики тестирования метода - сравнение результатов прогнозирования популярности видео, полученными при применении предложенного метода, с результатами применения двух простейших моделей: первая из которых предсказывает всем рассматриваемым видео то, что будут популярными (метка “1”), а вторая модель - предсказываем всем видео, что они будут непопулярными (метка “0”).
В таблице 5 приведены данные, отражающие параметры моделей и результаты работы двух простейших методов и реализации ансамбля деревьев GradientBoostingClassifier: в колонках 1 - название модели, 2 - learning rate (размер шага обучения), 3 - число деревьев в ансамбле (num_estimators), 4 - максимальная глубина каждого дерева, в колонках 5-8 - метрики качества, посчитанные на валидационном множестве, в колонках 9-12 - метрики качества на тестовом множестве.
Таблица 5. Параметры и результаты работы двух простейших методов и GradientBoostingClassifier.
Classifier |
LR |
N_est |
max_depth |
prec_val |
recall_val |
roc_auc_val |
accuracy_val |
prec_test |
recall_test |
roc_auc_test |
accuracy_test |
|
All 0 |
- |
- |
- |
0 |
0 |
0.5 |
0.77 |
0 |
0 |
0.5 |
0.84 |
|
All 1 |
- |
- |
- |
0.23 |
1 |
0.5 |
0.23 |
0.16 |
1 |
0.5 |
0.16 |
|
GradBoost |
0.1 |
100 |
3 |
0.645 |
0.543 |
0.72 |
0.82 |
0.60 |
0.43 |
0.69 |
0.86 |
|
GradBoost |
0.1 |
1000 |
3 |
0.60 |
0.55 |
0.72 |
0.81 |
0.51 |
0.39 |
0.66 |
0.84 |
|
GradBoost |
0.1 |
10000 |
3 |
0.54 |
0.49 |
0.68 |
0.79 |
0.49 |
0.4 |
0.66 |
0.83 |
|
GradBoost |
0.01 |
100 |
3 |
0.65 |
0.38 |
0.66 |
0.81 |
0.62 |
0.29 |
0.63 |
0.86 |
|
GradBoost |
0.1 |
100 |
1 |
0.61 |
0.59 |
0.73 |
0.82 |
0.56 |
0.46 |
0.69 |
0.85 |
|
GradBoost |
0.1 |
100 |
2 |
0.62 |
0.54 |
0.72 |
0.82 |
0.6 |
0.45 |
0.69 |
0.86 |
|
GradBoost |
0.1 |
100 |
4 |
0.62 |
0.53 |
0.71 |
0.82 |
0.6 |
0.41 |
0.68 |
0.86 |
|
GradBoost |
0.1 |
100 |
5 |
0.61 |
0.54 |
0.72 |
0.81 |
0.6 |
0.41 |
0.68 |
0.86 |
|
GradBoost |
0.01 |
10000 |
1 |
0.61 |
0.58 |
0.73 |
0.82 |
0.56 |
0.41 |
0.67 |
0.85 |
|
GradBoost |
0.01 |
10000 |
2 |
0.61 |
0.49 |
0.70 |
0.81 |
0.58 |
0.50 |
0.67 |
0.86 |
В таблице 6 приведены данные, отражающие параметры моделей и результаты работы двух простейших методов и реализации ансамбля деревьев RandonForestClassifier [44]: в колонках 1 - название модели, 2 - learning rate (размер шага обучения), 3 - число деревьев в ансамбле (num_estimators), 4 - максимальная глубина каждого дерева, в колонках 5-8 - метрики качества, посчитанные на валидационном множестве, в колонках 9-12 - метрики качества на тестовом множестве.
Таблица 6. Параметры и результаты работы двух простейших методов и RandomForestClassifier.
Datatype |
max_depth |
n_estimators |
min_leaf |
acc_val |
prec_val |
rec_val |
roc_auc_val |
acc_test |
prec_test |
rec_test |
roc_auc_test |
|
Numerical + categorical |
30 |
800 |
6 |
0,80754352 |
0,59313725 |
0,51054852 |
0,703204 |
0,86293436 |
0,59504132 |
0,43636364 |
0,69005323 |
|
Numerical + categorical |
10 |
300 |
6 |
0,81334623 |
0,60891089 |
0,51898734 |
0,70993282 |
0,86293436 |
0,59504132 |
0,43636364 |
0,69005323 |
|
Numerical + categorical |
30 |
600 |
4 |
0,81334623 |
0,60784314 |
0,52320675 |
0,71141517 |
0,86293436 |
0,59504132 |
0,43636364 |
0,69005323 |
|
Numerical + categorical |
10 |
1200 |
6 |
0,81044487 |
0,60199005 |
0,51054852 |
0,70508606 |
0,86196911 |
0,59016393 |
0,43636364 |
0,68947918 |
|
Numerical + categorical |
30 |
800 |
1 |
0,81141199 |
0,60294118 |
0,51898734 |
0,70867811 |
0,86196911 |
0,59016393 |
0,43636364 |
0,68947918 |
|
Numerical + categorical + text |
20 |
200 |
1 |
0,8172147 |
0,62244898 |
0,51476793 |
0,71095988 |
0,87355212 |
0,63934426 |
0,47272727 |
0,71110531 |
|
Numerical + categorical + text |
40 |
400 |
1 |
0,8172147 |
0,62765957 |
0,4978903 |
0,70503047 |
0,87162162 |
0,62903226 |
0,47272727 |
0,70995721 |
|
Numerical + categorical + text |
30 |
400 |
2 |
0,81914894 |
0,6344086 |
0,4978903 |
0,70628517 |
0,87258687 |
0,63636364 |
0,46666667 |
0,70807501 |
|
Numerical + categorical + text |
40 |
200 |
4 |
0,81624758 |
0,62702703 |
0,48945148 |
0,70143841 |
0,87258687 |
0,63865546 |
0,46060606 |
0,70561876 |
|
Numerical + categorical + text |
30 |
1200 |
4 |
0,81528046 |
0,62234043 |
0,49367089 |
0,70229341 |
0,87065637 |
0,62809917 |
0,46060606 |
0,70447065 |
|
Numerical + categorical + text+vis |
30 |
200 |
1 |
0,83558994 |
0,66341463 |
0,57383966 |
0,7436325 |
0,87355212 |
0,6328125 |
0,49090909 |
0,71847406 |
|
Numerical + categorical + text+vis |
40 |
100 |
4 |
0,82978723 |
0,65803109 |
0,53586498 |
0,72652722 |
0,86969112 |
0,63157895 |
0,43636364 |
0,6940716 |
|
Numerical + categorical + text+vis |
40 |
600 |
2 |
0,82011605 |
0,63076923 |
0,51898734 |
0,71432429 |
0,86776062 |
0,62068966 |
0,43636364 |
0,69292349 |
|
Numerical + categorical + text+vis |
40 |
800 |
6 |
0,82011605 |
0,63076923 |
0,51898734 |
0,71432429 |
0,86679537 |
0,61538462 |
0,43636364 |
0,69234944 |
|
Numerical + categorical + text+vis |
20 |
100 |
4 |
0,82398453 |
0,63681592 |
0,54008439 |
0,72424546 |
0,86679537 |
0,61538462 |
0,43636364 |
0,69234944 |
В таблице 7 приведены данные, отражающие параметры моделей и результаты работы двух простейших методов и реализации ансамбля деревьев XGBClassifier: в колонках 1 - рассматриваемый тип данных, 2 - максимальная глубина дерева, 3 - число деревьев в ансамбле (num_estimators), 4 - минимальное количество элементов для образования листа(min_leaf), в колонках 5-8 - метрики качества, посчитанные на валидационном множестве, в колонках 9-12 - метрики качества на тестовом множестве.
Таблица 7. Параметры и результаты работы двух простейших методов и XGBClassifier.
Datatype |
max_depth |
n_estimators |
learning_rate |
subsample |
min_child_weight |
acc_val |
prec_val |
rec_val |
roc_auc_val |
acc_test |
prec_test |
rec_test |
roc_auc_test |
|
Numerical + categorical + text+vis |
7 |
200 |
0,05 |
0,5 |
1 |
0,83559 |
0,663415 |
0,57384 |
0,743633 |
0,873552 |
0,632813 |
0,490909 |
0,718474 |
|
Numerical + categorical + text+vis |
1 |
200 |
0,1 |
0,6 |
1 |
0,821083 |
0,618182 |
0,57384 |
0,734222 |
0,869691 |
0,615385 |
0,484848 |
0,713722 |
|
Numerical + categorical + text+vis |
3 |
200 |
0,05 |
0,5 |
3 |
0,833656 |
0,648402 |
0,599156 |
0,751272 |
0,871622 |
0,626984 |
0,478788 |
0,712413 |
|
Numerical + categorical + text+vis |
3 |
200 |
0,07 |
0,5 |
3 |
0,837524 |
0,661972 |
0,594937 |
0,752299 |
0,875483 |
0,65 |
0,472727 |
0,712253 |
|
Numerical + categorical + text+vis |
3 |
200 |
0,07 |
0,5 |
7 |
0,837524 |
0,661972 |
0,594937 |
0,752299 |
0,875483 |
0,65 |
0,472727 |
0,712253 |
|
Numerical + categorical + text |
7 |
70 |
0,05 |
0,6 |
3 |
0,826886 |
0,646465 |
0,540084 |
0,726128 |
0,876448 |
0,645669 |
0,49697 |
0,722652 |
|
Numerical + categorical + text |
7 |
70 |
0,07 |
0,7 |
6 |
0,818182 |
0,625641 |
0,514768 |
0,711587 |
0,873552 |
0,630769 |
0,49697 |
0,72093 |
|
Numerical + categorical + text |
7 |
70 |
0,07 |
0,7 |
1 |
0,818182 |
0,625641 |
0,514768 |
0,711587 |
0,873552 |
0,630769 |
0,49697 |
0,72093 |
|
Numerical + categorical + text |
7 |
80 |
0,05 |
0,6 |
8 |
0,826886 |
0,649485 |
0,531646 |
0,723163 |
0,877413 |
0,653226 |
0,490909 |
0,72077 |
|
Numerical + categorical + text |
2 |
190 |
0,1 |
0,5 |
7 |
0,827853 |
0,637209 |
0,578059 |
0,740096 |
0,874517 |
0,637795 |
0,490909 |
0,719048 |
|
Numerical + categorical |
3 |
70 |
0,07 |
0,5 |
9 |
0,813346 |
0,604762 |
0,535865 |
0,715862 |
0,870656 |
0,626016 |
0,466667 |
0,706927 |
|
Numerical + categorical |
3 |
70 |
0,07 |
0,7 |
1 |
0,809478 |
0,591743 |
0,544304 |
0,716318 |
0,86583 |
0,6 |
0,472727 |
0,706513 |
|
Numerical + categorical |
3 |
70 |
0,07 |
0,7 |
3 |
0,809478 |
0,591743 |
0,544304 |
0,716318 |
0,86583 |
0,6 |
0,472727 |
0,706513 |
|
Numerical + categorical |
4 |
80 |
0,05 |
0,5 |
6 |
0,814313 |
0,606635 |
0,540084 |
0,717972 |
0,867761 |
0,611111 |
0,466667 |
0,705205 |
|
Numerical + categorical |
4 |
80 |
0,05 |
0,5 |
7 |
0,814313 |
0,606635 |
0,540084 |
0,717972 |
0,867761 |
0,611111 |
0,466667 |
0,705205 |
Метрика качества “Accuracy” [48] (доля верно предсказанных объектов (в нашем случае - видеороликов) от общего количества объектов) используется как самая распространённая в рассмотренных исследованиях (раздел 3). Вместе с тем, данная метрика обладает недостатком - она является не показательной на несбалансированных (по причине неравенства долей непопулярных и популярных классов).
Для устранения этого недостатка, применены метрики, характеризующие модель более комплексно. Метрика качества “Recall” демонстрирует долю количества верно предсказанных популярных объектов (в нашем случае - видеороликов) в общем количестве фактически популярных объектов. Метрика качества “Precision” представляет собой долю правильно предсказанных популярных объектов в общем количестве предсказанных объектов. Метрика “ROC-AUC” характеризует, насколько модель правильно сортирует объекты по убыванию популярности и позволяет предсказывать разный уровень популярности объектов.
Можно заметить, что значения метрик качества прогноза на валидационном множестве выше, чем значения аналогичных метрик на тестовом множестве. Предполагается, что это объясняется порядком формирования подмножеств, описанном в пункте 2. Таким образом, допустим вывод о необходимости использовать данных последних из опубликованных видеороликов в качестве обучающей выборки.
В таблицах 4-6 приведены выборочные результаты экспериментов, проведенных с различными реализациями ансамблей деревьев. Для перебора параметров использовался поиск параметров по сетке GridSearchCV [49].
Отмечается, что лучшее значение метрики RocAuc в классификаторе RandomRandomForestClassifier достигается при использовании всех типов признаков. Однако, модель учитывающая также текстовое описание заголовка незначительно уступает в показателе RocAuc и Accuracy на тестовом множестве.
При применении XGBClassifier можно отметить, что показатели модели после учёта данных о показателях популярности превью видео показатели качества прогноза ухудшаются в сравнении с результатами применения модели, которая добавляет к вещественным признакам лишь текстовое описание заголовка.
Реализация с лучшими параметрами достигает следующих метрик качества на тестовом подмножестве: Accuracy - 0,87; Precision - 0,63; Recall - 0,49; RocAuc - 0,72 (для каждой из метрик диапазон значений - от нуля до единицы, больше - лучше).
Проведено исследование влияния признаков на значение прогноза. В диаграмме приведены данные о важности десяти признаков, оказывающих наибольшее влияние на предсказание популярности (рисунок 3) . Важность признака измеряется в долях единицы - в весе, который назначает модель этому признаку при прогнозировании популярности.
Можно заменить, что максимальное влияние на прогнозируемую популярность нового видео оказывает количество просмотров последнего опубликованного видео на канале и количество подписчиков канала. Кроме того, важными признаками являются время планируемого опубликования вновь созданного видео, а также количества дислайков предыдущего видео. Интересно отметить, что также сильно на ожидаемую популярность влияет длительность видео. Возможно, видеохостинг заинтересован в продвижении длинных видео. Также можно отметить, что визуальные признаки(в этой модели превью видео) вновь не является значимым признаков в предсказании популярности.
Рисунок 3. Диаграмма важности признаков видеоконтента
Проведенное исследование доказало наибольшую значимость следующих характеристик для прогнозирования популярности видеоконтента:
- актуализированной популярности канала (характеризуется количеством просмотров, лайков и дислайков предыдущего видео, опубликованного на канале, временным лагом от публикации этого предыдущего видео до момента предполагаемой публикации видео, задача по прогнозированию популярности которого решается);
- популярности канала (характеризуется количеством подписчиков канала, анализируемом в рамках II этапа применения модели);
- длительность видео;
- время и день публикации предыдущего видео (определяется в рамках I этапа применения метода);
- глубиной просмотра (косвенно характеризуется количеством просмотров предыдущего видео и незначительной длительностью временного лага между временем публикации предыдущего видео и того видео, количество просмотров которого прогнозируется в случае его опубликования на канале в момент эксперимента);
- содержание (контент, тема) видеоролика, который в рамках модели учитывается посредством акцента на данных канала в целом, а не отдельного ролика в частности (приоритет канала и его тематики);
- визуальные признаки превью видео;
- заголовок видео.
Примечательно, что меньшая значимость качества съемки, а значит и визуальных признаков видео как фактора популярности, а большее значение перечисленных пяти характеристик подтверждается практиками [см., напр., 40].
Заключение
В рамках данной работы критерием “популярности”, под которым в рамках данной бакалаврской работы решено считать включение (попадание) видеоролика в ТОП-20% от исследуемого множества.
В рамках работы проведён анализ применения в аналогичных исследованиях следующих методов оценки популярности видеоконтента: метод прогноза популярности при помощи признаков настроения и содержания видео; Popularity-SVR; Popularity-LRCN; Popularity prediction c помощью механизма внимания. В результате выявлены возможные элементы моделей машинного обучения, которые могут быть использованы при предложении нового метода: свёрточные сети с долгосрочной памятью, градиентный бустинг, предобученные эмбеддинги Glove.
Для анализа ранее применяемых и для тестирования предложенных методов собраны данные о признаках 11 000 видео, опубликованных на видеохостинге YouTube, для чего разработано специальное программное обеспечение (парсер), открыты 70 пользовательских счетов на видеохостинге YouTube.
Предложены и протестированы методы, использующие как табличные, так и визуальные данные видео для прогноза популярности вновь создаваемого видеоконтента:
метод прогноза популярности на основе признаков настроения и содержания видео;
метод прогнозирования популярности на основе регрессии опорных векторов;
метод прогнозирования популярности на основе сверточной сети с долгосрочной памятью;
предсказание популярности с помощью механизма внимания.
Применение этих моделей было основано на предположениях о важности визуальных признаков и (или) заголовков видео для прогнозирования популярности вновь созданного видео. Однако, визуальной информации оказалось недостаточно для предсказания популярности видео, что соответствует мнению практиков о меньшей значимости визуальных признаков и недостаточности популярного названия видеоролика для обеспечения его популярности [см., напр., 40].
Кроме того, разработаны следующие методы прогноза популярности видеоконтента:
- на основе статистики видеоконтента и видеоканала YouTube с помощью ансамбля деревьев, учитывающий только данные об актуальной активности пользователей и авторов контента видеоканала, а также время публикации на нём вновь созданного видео;
- разработана модель, учитывающая текстовые заголовки видео и превью видео
Таким образом было подтверждено, что тематика и актуальная популярность канала являются значимыми факторами популярности видео, планируемого к опубликованию на канале. Применение методов прогноза популярности видеоконтента на основе статистики видеоконтента и видеоканала YouTube с помощью ансамбля деревьев является перспективным. Лучшая модель достигает следующих значений метрик качества на тестовом подмножестве: Accuracy - 0,87; Precision - 0,63; Recall - 0,49, то есть 87% видеороликов верно классифицируется как популярные/непопулярные корректно; среди роликов, отнесённых к классу популярные, 63% являются популярными; 49% действительно популярных видеороликов определены корректно.
Учитывая, что значения метрик на валидационном подмножестве выше, чем значения аналогичных метрик на тестовом, при применении метода рекомендуется использовать данные последних из опубликованных видеороликов в составе обучающей выборки.
С помощью анализа важности для предсказания популярности признаков лучшей модели определены признаки, имеющие наибольшее влияние на значение прогноза популярности вновь созданного видео: количество просмотров, лайков и дислайков последнего ранее опубликованного видео на канале, где планируется публикация вновь созданного видео, количество подписчиков этого канала, а также время и дата планируемого опубликования вновь созданного видео. Кроме того, выявлено, что фактор опубликования видео в 23:00, в 9:00 и в четверг является важным. Предложенный метод может быть использован для прогнозирования популярности при публикации на выбранном канале YouTube.
Представляется важным, что удалось доказать важность для попадания в ТОП вновь созданного видео не только исторической популярности канала, определяемой по числу его подписчиков, но также и значение актуализированной популярности канала, которая характеризуется количеством просмотров, лайков и дислайков предыдущего видео, опубликованного на канале. Фактором популярности вновь публикуемого видеоконтента является содержание (тематика) канала, что косвенно подтверждается учётом в методе данных канала в целом, а не отдельного ролика в частности. Данный вывод подтвержден практикой: значительную долю ТОП YouTube удерживают тематические каналы и видеоролики на них.
В ходе обучения модели в тренировочное множество отнесены только те данные, которые доступны до даты публикации видео, что обеспечивает достоверность и гарантирует возможность тиражирования модели.
В рамках дальнейших исследований возможно осуществить сравнительный анализ эффективности применения всех предложенных в бакалаврской работе методов, но для их тестирования получить данные о тематически схожих и примерно одинаково популярных каналов и данные об опубликованных на них видео. Таким образом возможно осуществить прогнозирование популярности имеющих разные заголовки, визуальные и иные характеристики видео, которые планируются к публикации на этих каналах. Кроме того, в рамках совершенствования мeтода Categorical и Real numbers Gradient Boosting следует собрать и обработать данные о длительности и частоте просмотра канала постоянными пользователями (глубина просмотров) и о стабильности (периодичности) времени и количества публикаций на канале.
В качестве рисков и ограничений можно отметить, что виды метаданных, необходимых для создания метода, изменяются во времени, YouTube изменяет API, следовательно, специальное программное обеспечение, разработанное для сбора данных, будет нуждаться в постоянной доработке. Кроме того, проведение работа осложнялась тем, что отсутствуют в открытом доступе предобученные на основе данных YouTube базовые модели Машинного обучения для решения задачи прогнозирования популярности видеоконтента. Кроме того, ряд признаков видеоконтента имеют имеют лингвистические, психологические и иные характеристики. В связи с этим, для разработки новых методов оценки популярности видеоконтента целесообразно проводить междисциплинарные исследования.
Список используемой литературы
1. Alpaydin E. Introduction to Machine Learning: Adaptive Computation and Machine Learning series. The MIT Press, 2009. 584 p.
2. Chandler D., Munday R. A Dictionary of Social Media. Oxford University Press, 2016. 275 p.
3. Вицелярова К.Н. Словарь по маркетингу. Армавир, 2013. 54 с.
4. Словарь языка интернета.ru / [под ред. М.А. Кронгауза]. М.: АСТ-Пресс, 2016. 196 с.
Размещено на Allbest.ru
...Подобные документы
Математические модели, построенные по принципу организации и функционирования биологических нейронных сетей, их программные или аппаратные реализации. Разработка нейронной сети типа "многослойный персептрон" для прогнозирования выбора токарного станка.
курсовая работа [549,7 K], добавлен 03.03.2015"Наивная" модель прогнозирования. Прогнозирование методом среднего и скользящего среднего. Метод опорных векторов, деревьев решений, ассоциативных правил, системы рассуждений на основе аналогичных случаев, декомпозиции временного ряда и кластеризации.
курсовая работа [2,6 M], добавлен 02.12.2014Нейронные сети как средство анализа процесса продаж мобильных телефонов. Автоматизированные решения на основе технологии нейронных сетей. Разработка программы прогнозирования оптово-розничных продаж мобильных телефонов на основе нейронных сетей.
дипломная работа [4,6 M], добавлен 22.09.2011Выбор публичных показателей для построения, обучения и тестирования модели нейронной сети, которая будет использована в основе информационной системы прогнозирования банкротства банков. Обзор моделей прогнозирования банкротства кредитных организаций.
дипломная работа [1,2 M], добавлен 30.06.2017Прогнозирование на фондовом рынке с помощью нейронных сетей. Описание типа нейронной сети. Определение входных данных и их обработка. Архитектура нейронной сети. Точность результата. Моделирование торговли. Нейронная сеть прямого распространения сигнала.
дипломная работа [2,7 M], добавлен 18.02.2017Прогнозирование валютных курсов с использованием искусственной нейронной сети. Общая характеристика среды программирования Delphi 7. Существующие методы прогнозирования. Характеристика нечетких нейронных сетей. Инструкция по работе с программой.
курсовая работа [2,2 M], добавлен 12.11.2010Описание структурной схемы искусственного нейрона. Характеристика искусственной нейронной сети как математической модели и устройств параллельных вычислений на основе микропроцессоров. Применение нейронной сети для распознавания образов и сжатия данных.
презентация [387,5 K], добавлен 11.12.2015Разработка высокоскоростной корпоративной информационной сети на основе линий Ethernet c сегментом мобильной торговли для предприятия ООО "Монарх". Мероприятия по монтажу и эксплуатации оборудования. Расчет технико-экономических показателей проекта.
курсовая работа [417,5 K], добавлен 11.10.2011Аналитический обзор видеосистем с элементами интеллектуальной обработки видеоконтента: FaceInspector, VideoInspector Xpress. Разработка алгоритма организации вычислительных средств комплекса, в структуру поэтапного решения задачи анализа видеообъекта.
дипломная работа [3,4 M], добавлен 14.06.2012Выбор локальной вычислительной сети среди одноранговых и сетей на основе сервера. Понятие топологии сети и базовые топологии (звезда, общая шина, кольцо). Сетевые архитектуры и протоколы, защита информации, антивирусные системы, сетевое оборудование.
курсовая работа [3,4 M], добавлен 15.07.2012Механизм создания и обмена пакетами в сети передачи информации на основе стека протоколов ZigBee. Принцип действия, особенности работы и коммутации с другими протоколами, определение основных методов и способов защиты информации, передаваемой в сети.
курсовая работа [2,6 M], добавлен 12.09.2012Математическая модель нейронной сети. Однослойный и многослойный персептрон, рекуррентные сети. Обучение нейронных сетей с учителем и без него. Алгоритм обратного распространения ошибки. Подготовка данных, схема системы сети с динамическим объектом.
дипломная работа [2,6 M], добавлен 23.09.2013Исследование нечеткой модели управления. Создание нейронной сети, выполняющей различные функции. Исследование генетического алгоритма поиска экстремума целевой функции. Сравнительный анализ нечеткой логики и нейронной сети на примере печи кипящего слоя.
лабораторная работа [2,3 M], добавлен 25.03.2014Разработка алгоритма и программы для распознавания пола по фотографии с использованием искусственной нейронной сети. Создание алгоритмов: математического, работы с приложением, установки весов, реализации функции активации и обучения нейронной сети.
курсовая работа [1,0 M], добавлен 05.01.2013Особенности проектирования локальной сети для учебного учреждения на основе технологии Ethernet, с помощью одного сервера. Описание технологии работы сети и режимов работы оборудования. Этапы монтажа сети, установки и настройки программного обеспечения.
курсовая работа [1,9 M], добавлен 16.02.2010Классификация компьютерных сетей по территориальной распространенности. История создания и преимущества использования локальной вычислительной сети. Появление технологии Ethernet, классы сетей и их топология. Монтаж сети на основе кабеля "витая пара".
дипломная работа [4,5 M], добавлен 03.06.2014Нейронные сети и оценка возможности их применения к распознаванию подвижных объектов. Обучение нейронной сети распознаванию вращающегося трехмерного объекта. Задача управления огнем самолета по самолету. Оценка экономической эффективности программы.
дипломная работа [2,4 M], добавлен 07.02.2013Анализ зоны проектирования, информационных потоков, топологии сети и сетевой технологии. Выбор сетевого оборудования и типа сервера. Перечень используемого оборудования. Моделирование проекта локальной сети с помощью программной оболочки NetCracker.
курсовая работа [861,6 K], добавлен 27.02.2013Модель и задачи искусственного нейрона. Проектирование двуслойной нейронной сети прямого распространения с обратным распространением ошибки, способной подбирать коэффициенты ПИД-регулятора, для управления движения робота. Комплект “LEGO Mindstorms NXT.
отчет по практике [797,8 K], добавлен 13.04.2015История создания и развития крупнейших социальных сетей в интернете. Анализ роста количества рекламы в них. Принципы построения рейтинга популярности. Опасности, которые они несут для человека и возможность использования его конфиденциальной информации.
реферат [411,6 K], добавлен 19.01.2015