Сравнительный анализ алгоритмов рекомендательных систем

Основные методы построения рекомендательных систем. Характеристика качества построенных моделей на основе базы данных MovieLens. Создание прогнозов с помощью коллаборативного метода фильтрации. Главная особенность вычисления коэффициента Пирсона.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 14.09.2018
Размер файла 1,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Таблица 10. Метрики качества алгоритма SVD.

Метрика

Значение

RMSE

0.90

Precision

0.79

Recall

0.49

F1-score

0.61

k-Means

Аналогично алгоритму SVD вычислим значения метрик (табл. 11):

Таблица 11. Метрики качества алгоритма k-Means.

Метрика

Значение

RMSE

0.92

Precision

0.78

Recall

0.48

F1-score

0.59

3.2 Описание полученных результатов

Объединим полученные результаты в единую таблицу результатов (табл. 12):

Таблица 12. Метрики качества по всем алгоритмам

RMSE

Precision

Recall

F1-score

Время работы

Collaborative Filtering

1.25

0.83

0.68

0.75

6 мин

SVD

0.90

0.79

0.49

0.61

1 мин

k-Means

0.92

0.78

0.48

0.59

2 мин

Вычисление времени работы всех алгоритмов производилось на компьютере с процессором Intel Core2Duo E8500 с тактовой частотой 3.16GHz и 4GB оперативной памяти.

В целом все алгоритмы показали высокий уровень качества по всем трем выбранным метрикам. Определить однозначного лидера довольно трудно, так как нет алгоритма, который был бы лучшим во всех трех метриках.

SVD получил наименьшее значение метрики RMSE, а так как эту метрику необходимо минимизировать, то это лучшее значение метрики. При этом стоит отметить, что k-Means также показал хороший результат, и его значение RMSE лишь на 2 сотые больше, чем у лидера. Однако коллаборативная фильтрация справилась в этом аспекте хуже всех и показала результат, который существенно отстает от лидеров.

По показателю Precision, напомню, что эту метрику мы пытаемся максимизировать и ее максимум равен 1, лучшее значение показал метод обычной коллаборативной фильтрации без применения машинного обучения. Однако всего примерно на 10% от лидера отстали методы SVD и k-Means соответственно. Лучшее значение метрики Recall, было снова достигнуто методом коллаборативной фильтрации. И здесь отрыв более существенный от остальных методов, чем в предыдущей рассматриваемой метрике. Стоит отметить, что SVD и k-Means снова показали практически одинаковый результат. Ожидаемо лучшее значение по F1-score также получил метод коллаборативной фильтрации, так как эта метрика зависит от значений Precision и Recall, в которых он оказался лучшим.

Согласно полученным результатам, лучшим алгоритмом для решения рассматриваемой задачи следует признать алгоритм SVD, несмотря на то, что по группе метрик precision / recall / F1 он не является лидером. Метрика RMSE в данном случае является более универсальной, т.к. интегрально оценивает все ошибки алгоритма. Также стоит учитывать время построения рекомендаций. Несмотря на относительно небольшое количество данных, которое далеко от реальных практических задач, время расчета методом классической коллаборативной фильтрации занимает более 6 минут. В то время как SVD справляется с этим примерно за 1 минуту. Таким образом в продуктивном использовании реализованного в данной работе метода классической коллаборативной фильтрации были бы серьезные трудности, так как это слишком большое время выдачи рекомендаций.

Стоит также не забывать, что рассматриваемые данные хоть и были собраны на реальном веб-сервисе от реальных пользователей, все же являются довольно простыми для применения алгоритмов, так как в них отсутствует ряд проблем, которые могли бы присутствовать в аналогичных данных, например, в этой работе не приходится сталкиваться с проблемой холодного старта по пользователям, так как у всех уже собраны оценки. Поэтому были достигнуты такие высокие показатели по всем метрикам.

Заключение

Рекомендательные системы сегодня стремительно набирают свою популярность, несмотря на то, что сама идея не нова, но именно в наше время появилась не только потребность в их использовании, но и техническая возможность качественно реализовать рекомендательные алгоритмы.

Существует огромное количество различных вариаций используемых алгоритмов, и еще большее количество их комбинаций. Это дает огромную гибкость при реализации рекомендательной системы и дает возможность получить качественные результаты в любой предметной области. Однако с другой стороны, такое обилие методов требует от разработчиков качественного анализа существующих алгоритмов, так как заранее практически невозможно с уверенностью сказать какой именно способ реализации рекомендательной системы покажет максимальное качество рекомендаций в требуемой области.

Согласно полученным результатам наиболее эффективным из рассмотренных алгоритмов по сочетанию параметров качество предсказания - время вычислений является метод SVD.

Список литературы

[1] Ricci F., Rokach L., Shapira B. Introduction to recommender systems handbook //Recommender systems handbook. - springer US, 2011. - С. 1-35.

[2] Melville P., Sindhwani V. Recommender systems //Encyclopedia of machine learning. - Springer US, 2011. - С. 829-838.

[3] Burke R. Recommender Systems: An Introduction, by Dietmar Jannach, Markus Zanker, Alexander Felfernig, and Gerhard Friedrich: Cambridge University Press, 2011. 336 pages. ISBN: 978-0-521-49336-9. - 2012.

[4] Shani G., Gunawardana A. Evaluating recommendation systems //Recommender systems handbook. - Springer, Boston, MA, 2011. - С. 257-297.

[5] Sarwar B. et al. Item-based collaborative filtering recommendation algorithms //Proceedings of the 10th international conference on World Wide Web. - ACM, 2001. - С. 285-295.

[6] Amatriain X. et al. Data mining methods for recommender systems //Recommender Systems Handbook. - 2010. - С. 257-297.

[7] Su X., Khoshgoftaar T. M. A survey of collaborative filtering techniques //Advances in artificial intelligence. - 2009. - Т. 2009. - С. 4.

[8] Adomavicius G., Tuzhilin A. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions //IEEE transactions on knowledge and data engineering. - 2005. - Т. 17. - №. 6. - С. 734-749.

[9] Takбcs G. et al. Scalable collaborative filtering approaches for large recommender systems //Journal of machine learning research. - 2009. - Т. 10. - №. Mar. - С. 623-656.

[10] Gunawardana A., Shani G. A survey of accuracy evaluation metrics of recommendation tasks //Journal of Machine Learning Research. - 2009. - Т. 10. - №. Dec. - С. 2935-2962.

[11] Del Olmo F. H., Gaudioso E. Evaluation of recommender systems: A new approach //Expert Systems with Applications. - 2008. - Т. 35. - №. 3. - С. 790-804.

[12] Andrew M. K-means and Hierarchical Clustering-Tutorial Slides //Carnegie Mellon University. - 2001.

[13] Yu K. et al. Probabilistic memory-based collaborative filtering //IEEE Transactions on Knowledge and Data Engineering. - 2004. - Т. 16. - №. 1. - С. 56-69.

[14] Poirier D., Fessant F., Tellier I. Reducing the cold-start problem in content recommendation through opinion classification //Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on. - IEEE, 2010. - Т. 1. - С. 204-207.

[15] Resnick P., Varian H. R. Recommender systems //Communications of the ACM. - 1997. - Т. 40. - №. 3. - С. 56-58.

[16] Lu J. et al. Recommender system application developments: a survey //Decision Support Systems. - 2015. - Т. 74. - С. 12-32.

[17] Sharma L., Gera A. A survey of recommendation system: Research challenges //International Journal of Engineering Trends and Technology (IJETT). - 2013. - Т. 4. - №. 5. - С. 1989-1992.

[18] Bobadilla J. et al. Recommender systems survey //Knowledge-based systems. - 2013. - Т. 46. - С. 109-132.

[19] Королева Д. Е., Филиппов М. В. Анализ алгоритмов обучения коллаборативных рекомендательных систем //Инженерный журнал: наука и инновации. - 2013. - №. 6. - С. 23-23.

[20] Billsus D., Pazzani M. J. Learning Collaborative Information Filters //Icml. - 1998. - Т. 98. - С. 46-54.

[21] Melville P., Mooney R. J., Nagarajan R. Content-boosted collaborative filtering for improved recommendations //In Proceedings of the Eighteenth National Conference on Artificial Intelligence (AAAI-2002. - 2002.

[22] Billsus D., Pazzani M. J. Learning Collaborative Information Filters //Icml. - 1998. - Т. 98. - С. 46-54.

[23] Sarwar B. et al. Analysis of recommendation algorithms for e-commerce //Proceedings of the 2nd ACM conference on Electronic commerce. - ACM, 2000. - С. 158-167.

[24] Schein A. I. et al. Methods and metrics for cold-start recommendations //Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval. - ACM, 2002. - С. 253-260.

[25] DeCoste D. Collaborative prediction using ensembles of maximum margin matrix factorizations //Proceedings of the 23rd international conference on Machine learning. - ACM, 2006. - С. 249-256.

Размещено на Allbest.ru

...

Подобные документы

  • Исследование рынка банковских программ. Анализ эффективности различных рекомендательных алгоритмов. Обзор имеющихся подходов выработки рекомендаций. Архитектура разрабатываемой системы. Методы коллаборативной фильтрации. Использование контентных методов.

    курсовая работа [678,2 K], добавлен 31.08.2016

  • Общее понятие и признаки классификации информационных систем. Типы архитектур построения информационных систем. Основные компоненты и свойства базы данных. Основные отличия файловых систем и систем баз данных. Архитектура клиент-сервер и ее пользователи.

    презентация [203,1 K], добавлен 22.01.2016

  • Методы проектирования систем автоматического управления: экспериментальный и аналитический. Моделирование замкнутой системы управления. Системы в динамике: слежение, стабилизация, алгоритм фильтрации. Математические модели систем, воздействий, реакция.

    контрольная работа [522,9 K], добавлен 05.08.2010

  • Проектирование логической структуры базы данных методом нормальных форм, сущность связь. Сравнительный анализ спроектированной базы данных и базы данных существующих информационных систем. Выбор и обоснование состава технических и программных средств.

    курсовая работа [3,0 M], добавлен 22.12.2014

  • Характеристика современных информационных систем. Структура Microsoft Access 97, его справочная система, типы данных, особенности использования, ввод, редактирование и просмотр данных. Создание новой базы данных с помощью Конструктора в MS Access 97.

    реферат [49,1 K], добавлен 23.10.2009

  • Понятие и классификация поисковых систем, история их развития и структурные элементы. Характеристика существующих моделей поиска, анализ его качества. Особенности обработки запроса поисковой системой, подготовки базы данных и процесса выдачи результатов.

    курсовая работа [2,6 M], добавлен 15.04.2014

  • Понятие информации, автоматизированных информационных систем и банка данных. Общая характеристика описательной модели предметной области, концептуальной модели и реляционной модели данных. Анализ принципов построения и этапы проектирования базы данных.

    курсовая работа [1,7 M], добавлен 18.01.2012

  • Общая характеристика систем обработки информации, их роль в управлении современным предприятием. Разработка проекта автоматизации процесса учета товаров на основе использования базы данных для магазина. Создание клиентской базы с возможностью обновления.

    дипломная работа [3,1 M], добавлен 13.07.2011

  • Основные понятия базы данных и систем управления базами данных. Типы данных, с которыми работают базы Microsoft Access. Классификация СУБД и их основные характеристики. Постреляционные базы данных. Тенденции в мире современных информационных систем.

    курсовая работа [46,7 K], добавлен 28.01.2014

  • Анализ баз данных и систем управления ими. Проектирование и создание реляционной базы данных в среде MS Access для ресторана "Дельфин": построение информационно логической модели, разработка структур таблиц базы данных и схемы данных, создание Web-узла.

    курсовая работа [3,7 M], добавлен 15.11.2010

  • Представление данных в памяти компьютера. Обобщенные структуры и модели данных. Методы доступа к информации. Физическая организация системы управления базами данных, структура сервера. Архитектура "клиент-сервер". Создание базы данных с помощью "Денвер".

    курсовая работа [770,3 K], добавлен 17.11.2014

  • Семантические сети как модели представления знаний. Основные методы определения сходства графовых моделей систем. Метод решения задач определения сходства семантических сетей на основе их сложности. Разработка алгоритмов и их программная реализация.

    дипломная работа [1,3 M], добавлен 17.12.2011

  • Разновидности систем управления базами данных. Анализ предметной области. Разработка структуры и ведение базы данных. Структурированный язык запросов SQL. Организация выбора информации из базы данных. Общие принципы проектирования экранных форм, макросов.

    курсовая работа [3,1 M], добавлен 26.02.2016

  • Получение изображения объекта с помощью оптико-электронных систем, построенных на основе ПЗС-приемника. Методы обработки первичной измерительной информации. Реализация алгоритма обработки графической информации с помощью языка программирования Python.

    лабораторная работа [1,1 M], добавлен 30.05.2023

  • Сущность базы данных. Процесс построения концептуальной модели. Построение реляционной модели, создание ключевого поля. Процесс нормализации. Проектирование базы данных в ACCESS. Порядок создание базы данных. Создание SQL запросов и работа в базе данных.

    курсовая работа [185,6 K], добавлен 08.11.2008

  • Создание базы данных, планирование разработки и системные требования. Проектирование базы данных в среде Microsoft Access, элементы и типы данных. Создание таблицы и использование конструктора для их модернизации. Построение запросов и создание макросов.

    курсовая работа [2,0 M], добавлен 16.04.2011

  • Критерии и основные стратегии планирования процессора. Разработка моделей алгоритмов SPT (Shortest-processing-task-first) и RR (Round-Robin). Сравнительный анализ выбранных алгоритмов при различных условиях и различном количестве обрабатываемых данных.

    курсовая работа [179,3 K], добавлен 21.06.2013

  • Создание таблиц базы данных с помощью MS Access "Страны Азии". Форма базы данных и запросы к выборкам данных. Модификация структуры таблиц, создания связей между главными таблицами, редактирование данных и проектирование форм для реальной базы данных.

    контрольная работа [723,9 K], добавлен 25.11.2012

  • Анализ существующих систем автоматизированного проектирования. Преимущества и недостатки универсальных сборочных приспособлений, их конструирование и сборка, современное информационное обеспечение. Создание базы данных для САПР сборочных приспособлений.

    дипломная работа [403,9 K], добавлен 26.03.2012

  • Обзор моделей анализа и синтеза модульных систем обработки данных. Модели и методы решения задач дискретного программирования при проектировании. Декомпозиция прикладных задач и документов систем обработки данных на этапе технического проектирования.

    диссертация [423,1 K], добавлен 07.12.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.