Профилирование пользователей в сети Интернет

Особенности создания профиля пользователя на основе наблюдения за его поведением. Профилирование пользователей в семантической паутине. Источники данных, их обработка. Классификация профилей пользователя. Использование интеллектуального анализа в сети.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 07.01.2016
Размер файла 42,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Московский государственный университет информационных технологий, радиотехники и электроники

Профилирование пользователей в сети Интернет

Студенты Казаков Сергей Константинович,

Ярлыкова Светлана Михайловна,

Кандидат технических наук, Заведующая кафедры информационной безопасности,

Телемтаев Руслан Андреевич

Аннотация

Данная статья рассматривает проблему анализа данных, а также разбирает различные подходы и виды реализации профилей пользователя. В данной статье мы будем рассматривать персонализацию в контексте сети. Есть три основных подхода для анализа данных в сети: на основе фильтрации содержимого, совместная фильтрация, интеллектуальный анализ. В этой статье, мы рассмотрим подходы, алгоритмы, а также возможные решения в данной области.

Ключевые слова:

интеллектуальный анализ; профиль пользователя; совместная фильтрация; сеть Интернет; текстовый анализ

Содержание

  • 1. Введение
  • 2. Профилирование пользователей в семантической паутине
  • 3. Работа с веб-данными
  • 3.1 Источники данных
  • 3.2 Обработка данных
  • 4. Содержимое на основе профиля пользователя
  • 4.1 Управление данными
  • 4.2 Профилирование пользователя для веб-просмотра
  • 4.3 Классификация профилей пользователя
  • 5. Совместное Профилирование Пользователя
  • 5.1 Проблема совместной фильтрации
  • 5.2 Типы коллаборативной фильтрации
  • 5.3 Подход основанный на модели
  • 5.4 Гибридный подход
  • 5.5 Другие подходы
  • 6. Использование интеллектуального анализа в сети
  • 6.1 Методы анализа данных с точки зрения решаемых задач и реализуемых подходов
  • 6.2 Выявление знаний из веб-ресурсов
  • 7. Заключение
  • Библиографический список

1. Введение

Мы живем в обществе, в котором компьютеры и интернет широко используется для доступа к различным видам информации. Сегодня не достаточно того, чтобы компьютеры выполняли сложные задачи в нужные сроки и хранили большие объемы информации. С появление интернета, количество информации увеличилось во много раз и поэтому можно говорить о таком понятие, как веб-персонализации пользователей.

Веб-персонализация, в широком смысле этого термина означает процесс персонализации веб-сайтов в соответствии с профилем конкретного пользователя, чтобы достичь наиболее эффективного просмотра веб-страниц. К просмотру веб-страниц, мы относим способность пользователя легко находить соответствующие пункты (содержание). Эффективность просмотра увеличивается за счет изменения структуры веб-сайта.

Профиль пользователя создается на основе наблюдения за поведением пользователя (переход по гиперссылки на веб-странице, предпочтение в просматриваемом содержимом и т.д.), пользователь может обеспечить обратную связь с системой (например маркировка веб-страницы, оценка контента, что очень важно в совместной фильтрации).

Способы, которые используются для веб-персонализации:

(1) на основе фильтрации содержимого

(2) совместная фильтрация

(3) интеллектуальный анализ

2. Профилирование пользователей в семантической паутине

Семантическая паутина с каждым годом набирает обороты и привычный пользовательский анализ данных сменяет машинный. Технически говоря, семантическая паутина - это данные, представленные в некоторой форме, которые позволяют компьютерам эффективно обмениваться информацией между собой, целью которых, является создание более качественного конечного интерфейса пользователя. Так как эти данные могут быть представлены в разном виде, один из возможных источников получения информации это использование пользовательского профилирования. Информация о пользователе может быть представлена несколькими способами. Как правило, если мы говорим о более абстрактной и обобщенной информации, мы говорим о "профиле пользователя" или "модели пользователя", которые включают в себя основную характеристику пользователя и данные о поведении пользователя. С точки зрения данных, пользователь является ключевым источником получения мета-данных. В дальнейшем полученная информация может быть использована для повышение эффективности взаимодействия пользователя с системой.

3. Работа с веб-данными

3.1 Источники данных

Есть несколько видов данных, которые являются наиболее важными в веб-персонализации. Эти данные разделены на четыре основные категории: (I) данные из журналов веб-доступа, (II) данные контента, (III) веб-структура данных сайта, и (IV) демографические данные.

Данные журналов веб-доступа. Веб-журналы содержат информацию о пользователях, имеющих доступ к сайту. Журналы в основном хранятся просто в виде текстовых файлов. Веб-журнал содержит следующую информацию: (I) IP-адрес пользователя, (II) имя аутентификации пользователя, (III) время доступа, (IV) запрос HTTP, (V) статус ответа, (VI) размер запрашиваемого ресурса, и, возможно, (VII) URL-адрес ссылающейся страницы и (VIII) браузер пользователя.

Данные контента. Данные контента - содержимое, которое может быть доступно пользователям. Здесь мы не имеем в виду только текстовую информацию, также к данному понятию относятся изображения и другой мультимедийный контент. Обычно мы имеем дело только с текстовой информацией.

Веб структура данных сайта. Структура сайта подготовленная дизайнером веб-сайта или с помощью генераторов, которые используются в веб-персонализации, для автоматической генерации удобной пользователю структуры веб-сайта.

Демографические данные. Демографические данные - данные, полученные от пользователя путем анкетирования. Такой способ сбора данных, как правило, не очень охотно воспринимается пользователями. Таким образом, этот вид получения данных, как правило, не используется, за исключением случаев, когда пользователь получает непосредственно выгоду от предоставления правильной информации.

3.2 Обработка данных

Первым этапом процесса веб-персонализации является фаза предварительной обработки данных. Фаза подготовки данных может быть разделена на две фазы: (I) получение данных из интернета и (II) подготовка данных

Очистка данных. Набор данных необходимо отфильтровать от записей, генерируемых автоматически совместно с загрузкой страницы.

Удаление записей, не отражающих активность пользователя. Веб-боты в автоматическом режиме просматривают множество различных страниц в сети. Их поведение сильно отличается от человеческого, и они не представляют интереса с точки зрения анализа использования веб-ресурсов.

Определение каждого отдельного пользователя. Большинство порталов в сети Интернет доступны анонимным пользователям. Можно применять информацию о зарегистрированных пользователях, по средствам cookie-файлов для определения предпочтений каждого пользователя.

Идентификация пользовательской сессии. Это означает, что при каждом визите определяется посещенная страница. Также система пытается оценить, когда пользователь покинул веб-сайт. Первая проблема, как правило, побочный эффект посреднических прокси устройств и локальных сетевых шлюзов. Кроме того, многие пользователи могут иметь доступ к одному компьютеру. Вторая проблема возникает, когда провайдер выполняет балансировку нагрузки используя несколько прокси-серверов. Другим средством хорошей идентификации пользователя является назначение пользователям имени пользователей и пароля.

Нахождение полного пути. Множество людей используют кнопку "Назад" для возвращения к ранее просмотренной странице. Если это происходит, то браузер отображает страницу, ранее сохраненную в кэше. Это приводит к "дырам" в журнале веб-сервера. Знания топологии веб-сайта могут быть использованы для восстановления таких пропусков.

Идентификация транзакции. Страницы, которые пользователь посещает в течение сеанса могут быть классифицированы в качестве вспомогательных или содержательных (страниц с контентом) страниц. Вспомогательные страницы используются для навигации, то есть пользователь не заинтересован в содержании, а лишь пытается переходить от одной страницы к другой. Содержательные страницы обеспечивают пользователя полезным содержанием. Процесс генерации транзакции, как правило, пытается определить различие между вспомогательными страницами и страницами содержания, чтобы провести независимо друг от друга так называемые вспомогательные сделки (состоящие из вспомогательных страниц и в том числе первой страницы содержания) и контент-сделки (состоящий только из содержательных страниц).

4. Содержимое на основе профиля пользователя

Большой объем информации приносит ряд проблем пользователю, а также научному сообществу. Представленная информация зачастую является произвольной смесью текста, речи, изображений и видео, объединенной в один документ и распределенной по разным частям глобальной сети. Дополнительной проблемой является разная целевая аудитория и интернет-сообщества, созданные на основе одних и тех же данных. В данном разделе мы рассмотрим некоторые подходы к автоматическому анализу информации на основе профиля пользователя.

4.1 Управление данными

Последние исследования предлагают новые решения, помогая пользователям принять правильное и быстрое решение в выборе информации, в которой он заинтересован. Некоторые из аспектов интеллектуального анализа данных включают в разработку моделей для распознавания текстовых документов на основе слов, фраз, лингвистических и грамматических свойств текста, а также извлечения информации из больших объемов данных.

Представление данных. Одним из первых в управлении данными рассматривается вопрос о представлении данных. Часто используется векторное представление, где все слова из документа берутся в словаря, игнорируя порядок слов или структуру текста. Выбор слов. Одной из характеристик данных, является большое количество различных слов, которые в наборе и образуют текстовый документ. Одним из часто используемых подходов, чтобы уменьшить количество слов, является удаление простых слов, таких как "и", "а", "то" или обрезать редкие слова. Другой способ, это удалить повторяющиеся слова и слова имеющие общее однокоренное слово.

Алгоритмы анализа данных. В области информационного поиска, один из устоявшихся методов классификации документов, является представление каждого документа, используя векторное представление с учетом TF-IDF веса. Каждый компонент документа рассчитывается как произведение частоты слова (TF) - отношение числа вхождения некоторого слова к общему количеству слов документа и инверсивной частоты (IDF) [16].

4.2 Профилирование пользователя для веб-просмотра

Одной из основных проблем, является перехват сложного содержимого, такого как изображения или видео. Существуют различные системы, которые генерируют профиль пользователя и использовают его для помощи в веб-браузинге.

Один из способов помочь пользователю в веб-браузинге является прогнозирование нажатия гиперссылки на основе данных предыдущих пользователем. Предполагается, что интересные пользователю гиперссылки, будут отображены в первую очередь. Проблема определяется как предсказать нажатие гиперссылки из набора веб-документов, посещенных пользователем. Все гиперссылки на посещаемых страницах используются для построения пользовательского профиля. Каждой ссылке назначается один из двух значений класса: положительный (пользователь нажал на ссылку), либо отрицательным (пользователь не нажимает на ссылку). Каждый гиперссылка представлена как своего рода небольшой документ, содержащий подчеркнутые слова, слова во всех вышеуказанных гиперссылках.

Как уже отмечалось, профиль создается для каждого пользователя независимо от других пользователей. Этот профиль может быть дополнительно использован для сравнения пользователей и обменивания данными между ними. Этот обмен связан с совместным подходам к профилированию пользователя.

профиль пользователь сеть интернет

4.3 Классификация профилей пользователя

Автоматическая классификация текста документа является давно известной проблемой, которой занимается множество исследователей. В веб-иерархии документы связаны гиперссылками. Каждая категория обозначается ключевыми словами, которые указывают на пути от корня дерева к узлу, представляющего категорию. Более конкретные категории названы иными ключевыми словами с именем более общей категории, непосредственно подключенными к нему (на один уровень выше в дереве). Некоторые узлы в нижней части дерева содержат в основном гиперссылки на фактические веб-документы, в то время как другие узлы в основном содержат только ссылки на другие узлы в иерархии.

Цель иерархии - это назначение произвольному текстовому документу правильную категорию в пределах данной иерархии, как точно и как можно быстрее. Оценка системы проводится на основе списка категорий и ключевых слов, которые относятся с наибольшей вероятностью. Для обработки используется векторное представление документа, где каждая функция представляет собой последовательность слов, а не единое слово. Этот подход не ограничивается веб-иерархией и может быть применен в других иерархиях.

5. Совместное Профилирование Пользователя

Совместное профилирование пользователя основано на нахождении пользователей, которые похожи на активного пользователя и подобны их предпочтения, то система может предсказать предпочтения активного пользователя для некоторых предметов и определить ранжированный список предметов, которые активный пользователь наиболее вероятно предпочтет. Совместная фильтрации обычно игнорирует форму и содержание пунктов и поэтому также применяется к не текстовым элементам. Кроме того, совместная фильтрация может обнаружить отношения между элементами, которые не имеют сходства, но неявно связаны через группы пользователей, имеющих доступ к ним. Эти группы (сообщества) формируются вокруг определенного профиля пользователя.

5.1 Проблема совместной фильтрации

К примеру мы хотим посмотреть фильм, тогда мы смотрим отзывы и рейтинг на одном из общедоступных веб-сайтов. То есть предсказание происходит на основе рейтингов, которые присваивают этому фильму другие пользователи, и при условии, что их вкусы схожи с нашими. Однако часто после просмотра фильма мы остаемся неудовлетворенными, поэтому этот подход анализа является не самым эффективным. Но у нас есть возможность спросить друга, вкус которого мы считаем схожим с нашим. С этой точки зрения мы движемся к более эффективному подходу фильтрации. Совместная фильтрации сравнивает пользователей в соответствии с их предпочтениями. Предпочтения могут быть собраны либо явно, либо неявно. В первом случае участие пользователя не требуется. Пользователь явно предоставляет его оценку. В случае второго способа, можно рассмотреть журнал доступа документа, если пользователь имеет доступ к документу, то ему присваивается 1, если нет, то 0.

5.2 Типы коллаборативной фильтрации

Коллаборативная фильтрация разделяется на 3 основных подхода:

Подход основанный на соседстве

Данный подход является первым в коллаборативной. В данном подходе для активного пользователя подбирается подгруппа пользователей схожих с ним. Комбинация оценок и весов подгруппы используется для прогноза оценок каждого активного пользователя. [1,2]

5.3 Подход основанный на модели

Данный подход предоставляет рекомендации, измеряя параметры статистических моделей для оценок пользователей, построенных с помощью таких методов как, метод кластеризации, байесовских сетей, латентной семантической модели и других. Модели разрабатываются с помощью интеллектуального анализа данных, алгоритмов машинного обучения, чтобы найти закономерности на основе обучающих данных. Число параметров в модели может быть уменьшено в зависимости от типа.

Этот подход является более комплексным и даёт более точные прогнозы, так как помогает раскрыть скрытые факторы. Данный подход имеет ряд преимуществ. Он обрабатывает разреженные матрицы лучше, чем подход основанный на соседстве, что в свою очередь помогает с масштабируемостью больших наборов данных. Недостатки этого подхода заключаются в затратном создании модели. [1,2]

5.4 Гибридный подход

Данный подход объединяет в себе подход основанный на соседстве и подход основанный на модели. Гибридный подход является самым распространённым при разработке рекомендательных систем для коммерческих сайтов, так как он помогает преодолеть ограничения изначального оригинального подхода и улучшить качество предсказаний. Этот подход также позволяет преодолеть проблему разреженности данных и потери информации. Однако данный подход сложен и дорог в реализации и применении. [1,2]

5.5 Другие подходы

Метод Хортинга. Методом Хортинга является теоретико-графический подход к совместной фильтрации. Она включает в себя строительство ориентированного графа, в котором вершины представляют пользователей, а ребра обозначаются степенью сходства между ними. Если мы пытаемся предсказать пользователю A рейтинг пункта C, мы должны найти ориентированный путь от пользователя A к пользователю B, по ребру со значением C. С помощью линейных преобразований, присвоенных ребрам вдоль пути, мы можем предсказать рейтинг пользователя A в пункте C. Ни один другой пользователь на этом пути не получит значение ребра равное рейтингу пункта С. Это означает, что метод Хортинга также исследует переходные отношения между пользователями.

Кластеризация методами. Байесовские и небайесианские методы кластеризации могут быть использованы для создания кластеров подобных пользователей. Активный пользователь является членом в определенной группе. Чтобы предсказать его рейтинг А, мы вычисляем средний рейтинг по А в кластере, который принадлежит пользователю. Некоторые методы позволяют частичное членство пользователя в более чем одном кластере. В таком случае, предсказанный рейтинг рассчитывается в течение нескольких кластеров и взвешивается по степени участия пользователя. Техника кластеризации также может быть использована как метод отбора экземпляра, которые используются, чтобы сократить набор кандидатов.

6. Использование интеллектуального анализа в сети

Использование интеллектуального анализа в сети отличается от совместной фильтрации в том, что мы не заинтересованы в явном открытие профилей пользователей, а, скорее наоборот. При предварительной обработке лог-файла мы не сосредоточены на эффективной идентификации уникальных пользователей, а только пытаемся определить отдельные пользовательские сессии. Эти сеансы затем используются для формирования так называемых сделок. На следующем этапе, методы использования веб информации применяются для идентификации частых наборов а также, последовательных шаблонов, кластеров и связанных страниц. Данные метода могут быть использованы для поддержки динамических структурных изменений на веб-сайте в пользу активного пользователя, и сопровождаются рекомендациями активного пользователя, которые помогают ему в дальнейшей навигации по сайту. Кроме того, рекомендации могут быть сделаны, чтобы администраторы сайта и дизайнеры, следили за структурными изменениями на сайте для того, чтобы обеспечить более эффективный просмотр. В случае реализации использования алгоритма интеллектуального анализа, мы будем получать информацию и прогнозы о том, какие страницы могут посетить в ближайшее время, на основе поведения активных пользователей.

6.1 Методы анализа данных с точки зрения решаемых задач и реализуемых подходов

Поиск информации

Для нахождения необходимой информации пользователи обычно пользуются поисковыми ресурсами. При этом часто используются простые запросы по ключевым словам. Результатом выполнения запроса является список страниц, отсортированный по некому индексу релевантности, описывающему степень совпадения результата с запросом. Однако существующие поисковые механизмы обладают недостатками. Основным из них является низкая точность результата, вызванная недостаточным учетом семантических связей и контекста найденных в тексте выражений. Индексация интересующих сегментов сети с использованием интеллектуального анализа данных, применяющего алгоритмы математической лингвистики и обработки естественных языков, является перспективным направлением анализа данных в области поиска информации.

Анализ структуры сегмента сети

Этот метод заключается в анализе структуры ссылок между различными веб-страницами, внутренними и внешними сайтами в выделенном сетевом сегменте. Появление этого метода было вызвано необходимостью решения задач, возникающих при анализе социальных сетей или специфических областей человеческой деятельности или знаний, например, в анализе цитирования авторов. Результатом такого анализа может служить выявленный набор специфичных страниц следующих типов:

хабы - из такой страницы ссылки идут на наиболее значимые ресурсы в данной области знаний или на "знакомства" с наиболее значимыми пользователями социальной сети;

авторитеты - страницы, на которые ссылаются большое количеством авторов по данной тематике или пользователи социальной сети, к "дружбе" с которыми стремится большое количество пользователей.

Топология структуры ссылок представляется в виде направленного графа с помеченными узлами в соответствии с их функциональной классификацией и дугами с весами, описывающими, например, частоты переходов по ссылке.

6.2 Выявление знаний из веб-ресурсов

Эта задача пересекается с уже описанной проблемой поиска информации. Только здесь у исследователя уже имеется набор веб-страниц, полученных в результате запроса. Далее требуется произвести их обработку с точки зрения автоматической классификации, составления оглавлений, выявления ключевых слов и общих тем. Выявленные знания могут представляться в виде деревьев, описывающих структуры документов или в виде логических и семантических выражений. Решение части этих проблем предлагает анализ содержимого - технология автоматического извлечения знаний в больших объемах текстового материала, основанная на сочетании лингвистических, семантических, статистических и машинных обучающихся методик

Персонализация информации

Персонализация веб-пространства - задача по созданию веб-систем, адаптирующих свои возможности (навигация, контент, баннеры и другие рекламные предложения) под пользователя на основании собранной и проанализированной информации о пользовательских предпочтениях. Для анализа информации о пользователе следует в наименьшей степени использовать декларируемую о себе информацию, а скорее основываться на стойких шаблонах его "поведения" в сети - последовательности кликов внутри ресурса, переходах на другие под-ресурсы, периодах сетевой активности, осуществляемых покупках и т.д. Поиск шаблонов в поведении пользователей

Эта задача связана с предыдущей, но ее целью является не адаптация ресурса к предпочтениям индивидуальных пользователей, а поиск закономерностей в шаблонах взаимодействия пользователя с веб-ресурсом с целью прогнозирования его последующих действий. Анализируемые действия пользователей могут включать не только переходы по ссылкам, но и отправку форм, прокрутку страниц, добавление в избранные страницы и т.д. Найденные шаблоны используются в дальнейшем для оптимизации структуры сайта, изучения целевой аудитории и для прямого маркетинга.

Разработано множество подходов к решению задачи по выявлению знаний из шаблонов навигации пользователей. С точки зрения применения алгоритмов интеллектуального анализа данных при поиске шаблонов пользовательского поведения чаще всего используются следующие методики:

Кластеризация - поиск групп похожих посетителей, сайтов, страниц и т.д.

Ассоциации - поиск совместно запрашиваемых страниц, заказываемых товаров.

Анализ последовательностей - поиск последовательностей действий. Наиболее часто применяется вариант алгоритма apriori, разработанного для анализа частых наборов, но модифицированного для выявления частых фрагментов последовательностей и переходов.

Особенно интересен подход кластеризации последовательностей - поиск групп пользователей со схожими последовательностями действий. На первом этапе в этом подходе выделяются последовательности классифицированных действий пользователя, например, в рамках одной сессии. Затем подсчитываются частоты переходов между различными действиями для составления Марковской цепи заданного порядка. На заключительном этапе полученные Марковские цепи кластеризуются для выявления групп с похожими частотами переходов. Для прогнозирования следующего действия пользователя сначала на основании истории его действий в рамках сессии определяется группа, к которой он принадлежит с наибольшей вероятностью. Затем определяется действие, которое выполняется с наибольшей вероятностью в этой группе с учетом последних действий данного пользователя. Для реализации такого анализа можно, например, использовать алгоритм Microsoft Sequential Clustering, входящий в Microsoft Analysis Services 2005/2008. Недостатком алгоритма Microsoft является то, что до настоящего времени реализован алгоритм, использующий Марковские цепи только первого порядка.

В бизнес-аналитике Web Mining решает следующие задачи:

· описание посетителей сайта (кластеризация, классификация);

· описание посетителей, которые совершают покупки в интернет-магазине (кластеризация, классификация);

· определение типичных сессий и навигационных путей пользователей сайта (поиск популярных наборов, ассоциативных правил);

· определение групп или сегментов посетителей (кластеризация);

· нахождение зависимостей при пользовании услугами сайта (поиск ассоциативных правил).

7. Заключение

Результатом поэтапнои? реализации данной статьи стал алгоритм совместной фильтрации и интеллектуального анализа, позволяющии? произвести правильныи? отбор пар "пользователь - набор отображаемых данных" путем отсеивания неинтересной или ненужнои? пользователю информации.

Использование данных методов профилирования позволит пользователям сети Интернет тратить меньше времени на просмотр информации и больше на ее практическое применение.

Результаты, достигаемые при реализации данных подходов, позволят повысить эффективность поиска и выдачи информации для каждого пользователя сети Интернет. Данные алгоритмы позволят повысить производительность средств распространения рекламных информационных материалов в Интернет и эффективность рекламного и информационного воздеи?ствия на пользователеи?.

Библиографический список

1. Balabanovic, M., Shoham, Y., 1997. FAB: Content-based collaborative recomender.communic. ACM 40, 3, 66-72.

2. Berry, M. W., Dumas, S. T., O'Brien, G. W., 1995. Using linear algebra for intelligent information retrieval, SIAM Rewiev, Vol.37, No.4, 573-595.

3. Blum, A, Mitchell, T., 1998.combining Labeled and Unlabeled Data with Cotraining, In COLT: Proceedings of the Workshop on Computational Learning Theory, Morgan Kaufmann Publishers.

4. Brank, J., Grobelnik, M., Milic-Frayling, N., Mladenic, D. 2002. Feature selection using support vector machines. Proceedings of the 3rd International Conf. on Data Mining Methods and Databases for Engineering, Finance, and Other Fields.

5. Brusilovsky, P., Kobsa, A., Vassileva, J. (eds.) 1998. Adaptive Hypertext and Hypermedia, Kluwer Academic Publishers.

6. Burke, R., Hammond, K., Kulyukin, V., Lytinen, S., Tomuro, N., Schoenberg, S., 1997. Question Answering from Frequently-Asked Question Files: Experiences with the FAQ Finder System. AI Magazine, 18 (2), pages 57-66.

7. Cohen, W., Singer, Y., 1999. Context-sensitive learning methods for text categorization, in ACM Transactions on Information Systems, v17, 171-173.

8. Craven, M., Slattery, S. 2001. Relational Learning with Statistical Predicate Invention: Better Models for Hypertext. Machine Learning, 43 (1-2): 97-119.

9. Dhillon, I. S., Modha, D. S., 2001. Concept decomposition for large sparse text data using clustering, Machine Learning, Vol.42, No.1, 143-175.

10. Duda, R. O., Hart, P. E. and Stork, D. G. 2000. Pattern Classification 2nd edition, Wiley-Interscience 11. Ghani, R., Jones, R., Mladenic, D., Nigam, K., Slattery, S., 2000. Data Mining on Symbolic Knowledge Extracted from the Web, In KDD-2000 Workshop on Text Mining, 2000.

12. Hand, D. J., Mannila, H., Smyth, P. 2001) Principles of Data Mining (Adaptive Computation and Machine Learning), MIT Press.

13. Hastie, T., Tibshirani, R. and Friedman, J. H. 2001. The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer Series in Statistics, Springer Verlag.

14. Markov Z, Larose D. T. Data-mining the Web: uncovering patterns in Web content, structure, and usage, - John Wiley & Sons Inc., 2007 Web, 285-295, 2001.

15. Анализ данных и процессов: учеб. пособие /А.А. Барсегян, М.С. Куприянов, И.И. Холод, М.Д. Тесс, С.И. Елизаров. - 3-е издание перераб. и доп. - СПб.: БХВ-Петербург, 2009 16. Википедия. TF-IDF. https: // ru. wikipedia.org/wiki/TF-IDF 17. Коллаборативная Фильтрация. Википедия. https: // ru. wikipedia.org/wiki/Коллаборативная_фильтрация 18. Понизовкин Д.М. Построение оптимального графа связей в системах коллаборативной фильтрации (рус.) // "Программные системы: теория и приложения": журнал. - 2011. - № 4 (8). - С.107-114.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.