Методы подготовки персонализированного контента
Анализ понятия таргетирования – основного инструмента персонализации. Характеристика особенностей персонализации на сайтах. Определение сущности кластеризации (кластерного анализа) — задачи разбиения множества объектов на группы, называемые кластерами.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 18.06.2016 |
Размер файла | 176,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Оглавление
Введение
1. Базовые определения
2. Основные этапы персонализации
3. Виды персонализации
4. Критерии персонализации
5. Кластеризация информации
Заключение
Список литературы
Введение
Уверенный прогресс во внедрении информационных технологий в быт людей, а также обилие виртуального контента стало причиной появления технологии персонализации. Она позволяет не только доносить информацию до конечных пользователей максимально эффективно, но и получать статистику по многим параметрам, что в свою очередь приводит к усовершенствованию качества контента, увеличению количества направлений разработок, расширению возможностей прогнозирования рынка и многое другое.
В виду того, что механизм персонализации очень полезен, технологию постоянно развивают и совершенствуют, задействуя более сложные алгоритмы и большие вычислительные мощности. Таким образом, механизм персонализации в своей основе содержит огромное количество структур данных, алгоритмов и принципов. Нейронные сети, нечёткие множества, теория графов - всё это используется для реализации персонализации.
1. Базовые определения
Контент - это информационное наполнение страницы в интернете[1]. Контент может представлять из себя текст, изображения, аудиофайлы, видеофайлы, то есть всё, что пользователь может увидеть, услышать и прочитать. Существует несколько классификаций контента[1]:
- Уникальность. Контент бывает уникальным и неуникальным. Контент является уникальным в том случае, если он размещается в сети в первые. В противном случае, например, если контент был скопирован с другого сайта, являющегося для данной информации первоисточником, контент классифицируется как неуникальный.
- Авторство. Контент может быть авторским или пользовательским. Авторский контент размещается на сайте самими его владельцами, тогда как пользовательский контент загружается на сайт пользователями.
- Тематика. Контент может быть либо тематическим, либо нетематическим. В первом случае содержание контента соответствует общей тематике сайта, во втором же никаких смысловых привязок нет.
- Статичность. Контент может быть постоянным и пополняемым. Очевидно, даже на информационных порталах информация обновляется, однако, на сайтах с пополняемым контентом изменения информации носят накопительный характер.
Персонализация - это предоставление пользователю уникального контента, основанного на данных, имеющихся о нём в информационной системе: наиболее частые поисковые запросы, геопозиция, паттерны поведения и прочее[2]. Персонализация также может называться кастомизацией. персонализация кластеризация сайт
Таргетирование - основной инструмент персонализации [1]. Он позволяет выделять различные целевые аудитории по множеству признаков. Существует множество видов таргетирования:
- тематическое таргетирование - рекламный контент, размещённый на сайте, соответствует общей тематике сайта;
- таргетирование по интересам - в рамках единого виртуального пространства демонстрируемая информация меняется в зависимости от интересов просматривающей её целевой аудитории;
- географическое таргетирование (геотаргетинг) - контент меняется в зависимости от геолокации пользователей;
- локальное таргетирование - подвид геотаргетинга, но в отличии от региональной привязки используется привязка к конкретным организациям;
- временное таргетирование - контент, размещённый на сайте, меняется в зависимости от времени суток.
- социально-демографическое таргетирование - для определения целевой аудитории используются объективные человеческие признаки, такие как возраст, доход, пол, должность и тому подобное;
- поведенческое таргетирование - использует поведенческие паттерны пользователя в интернете, такие как история просмотренных сайтов, покупки в интернет-магазинах, запросы в поисковых системах, вводимые контактные данные и так далее. Файлы cookie выступают в качестве источника информации;
- геоповеденческое таргетирование - комбинация поведенческого таргетирования с географическим. Персонализация на основе геоповеденческого таргетирования позволяет эффективнее предоставлять пользователю контент за счёт того, что его привычки и пристрастия соотносятся с его местонахождением. Таким образом, информационная система может получить более подробные данные об интересах пользователя, даже если он никогда не запрашивал такую информацию в интернете напрямую.
Персонализация активно применяется для увеличения конверсии сайта. Конверсия - это отношение числа активных посетителей сайта к общему количеству посетителей[3]. Активным посетитель становится тогда, когда выполняет какие-либо действия, заложенные в стратегию производителей сайта или рекламодателей. Эти действия могут быть скрытыми или прямыми. Обычно это регистрация, подписка, переход по внутренним ссылкам, покупка в интернет-магазине и так далее.
2. Основные этапы персонализации
В основе персонализации лежит принцип исполнения сценария: в зависимости от распознанного в режиме реального времени типа посетителя или его поведения на странице некоторые части сайта, письма или приложения (далее «ресурс») видоизменяются. Для каждого типа посетителя (в веб-аналитике этот тип называется сегментом[4]) необходимо продумать персональные правила изменения структуры или контента ресурса. Как только посетитель в режиме онлайн будет классифицирован, ресурс будет изменён согласно правилам персонализации в соответствии с заданным сценарием. Для прогнозирования того, какая информация будет интересна посетителю, в зависимости от его поведения в сети используются методы предиктивной аналитики[3]. Под предиктивной аналитикой подразумеваются методы математической статистики, теории игр, анализа данных и другие техники, применяемые для создания прогноза по данным или событиям в будущем.
Сам процесс персонализации включает в себя четыре основных этапа:
- Анализ входящего информационного трафика. На данном этапе производится анализ посетителей сайта, выделяются признаки, по которым их можно объединить, и осуществляется сегментирование. Сегменты пользователей формируются по критериям персонализации, которые будут описаны в главе 3. Именно этот этап является наиболее сложным в автоматизации, поэтому более подробно он будет рассмотрен в главе 4.
- Создание сегментированного контента. На данном этапе происходит формирование информационных блоков, отображаемых индивидуально для каждого пользователя или группы пользователей. На основе анализа, произведённого на первом этапе, разработчики решают, какой контент для какого сегмента должен демонстрироваться, и создают его.
- Видоизменение ресурса. На третьем этапе происходит формирование страниц, персонализированных в соответствии с результатами анализа, проведённого на первом этапе, с использованием контента, созданного на втором этапе. Система демонстрирует персонализированный контент пользователям.
- Анализ результатов персонализации. На четвёртом этапе осуществляется сбор отчётов и анализ статистики. Вычисляются значения коэффициентов конверсии, обрабатывается обратная связь с пользователями, фиксируются ошибки, создаются дополнительные направления в развитии персонализированного контента для различных сегментов. На основе проведённого анализа формируются новые целевые аудитории, а также происходит дробление уже существующих сегментов, внесение корректировок и так далее. Затем процесс персонализации запускается сначала, но с учётом уже имеющихся результатов предыдущих анализов. Если в качестве алгоритма персонализации выбран алгоритм на основе нейронных сетей, процесс требует меньшего вмешательства со стороны разработчиков, так как система самообучается.
При более подробном рассмотрении первого этапа, его можно разделить на две части:
– Система собирает и сохраняет все возможные данные о пользователе;
– На основе собранной информации производится анализ, результатом которого является разделение пользователей для дальнейшей персонализации.
Однако, несмотря на простое описание, в самом процессе принимает участие множество алгоритмов разной степени сложности. Из всех описанных выше процессов самым трудоёмким является процесс анализа данных с целью выделения сегментов аудитории ресурса. Для того, чтобы решить эту задачу, собранная информация подвергается кластеризации. Кластеризация информации позволяет на основе полученных данных выделять общие признаки между разными пользователями и формировать группы на основе этих признаков, то есть группировать данные по теме и смыслу[5]. Для решения задач кластеризации применяются такие теории, как теория графов, теория нечётких множеств и теория искусственных нейронных сетей. Более подробно процесс кластеризации описан в главе 5.
3. Виды персонализации
Персонализация делится на виды в зависимости от сценария её использования. Например, если согласно сценарию в почтовой рассылке в начале каждого письма должно быть обращение к конкретному пользователю, система, используя информацию, хранящуюся в базе данных, модифицирует каждое письмо перед отправкой. Таким образом происходит именная персонализация по письмам. Помимо персонализированных обращений в письмах может содержаться информация, соответствующая интересам конкретного пользователя или группы пользователей. Например, находясь на сайте, клиент просматривал страницы, соответствующие определённой тематике. Если информация об этом сохранена, она также может быть использована для персонализации: в письме, отправляемом пользователю, будет содержаться информация об обновлениях только тех рубрик, что соответствуют интересам данного пользователя. Так происходит персонализация писем по истории просмотренных тем. Далее рассмотрены основные виды персонализации.
Персонализация в письмах:
– Обращение по имени. Источник: имя пользователя. В качестве имени может использоваться как имя, так и логин пользователя, введённый им при регистрации на сайте (если речь идёт об отправке пользователю письма от представительства этого сайта), или полученный иным способом (например, если пользователь осуществлял «быстрый заказ» в интернет-магазине, он не проходил процедуру регистрации, однако, он всё равно заполняет форму «Имя», а система сохраняет полученные данные). Имя пользователя используется в обращении в начале письма;
– Размещение контента в определённых местах. Источник: история кликов. С помощью JavaScript отправители писем собирают статистику о том, куда пользователи кликают чаще всего, когда читают корреспонденцию. Данная статистика используется для размещения активных ссылок (например, рекламных баннеров) с расчётом на то, что пользователь может кликнуть туда как специально, так и по неосторожности. Помимо рекламы в эти зоны может помещаться информация полезная (об этом далее) для пользователя.
– Интересный контент. Источник: история просмотров. Обычно, между тематикой страниц, просматриваемых пользователем, и его интересами ставится знак равенства. По этой причине, просмотр пользователем страниц определённой направленности (как правило, каждая страница содержит в себе ключевые слова) приводит к тому, что внутри системы каждому пользователю соответствуют определённые ключевые слова, а ресурсы сайта, помеченные данными ключевыми словами, определяются для пользователя как «полезные» автоматически. Таким образом, если, например, в каком-то из разделов сайта было произведено обновление, для пользователей системы, помеченных как «заинтересованные», будут автоматически сгенерированы письма, с соответствующей информацией.
Персонализация на сайтах:
– Обращение по имени. Источник: имя пользователя. Как и в письмах, на сайтах может отображаться имя или логин пользователя. Для этого на сайтах делают соответствующие блоки, посвящённые пользователям (обычно там пишут приветствие, например: «Здравствуйте, [имя_пользователя].»), а также раздел «личный кабинет», в котором пользователи могут посмотреть информацию о собственной активности на данном сайте.
– Интересные предложения. Источник: история покупок. Также, как и история просмотров, для персонализации применяется история покупок. Разница в том, что помимо интересов пользователя благодаря истории покупок система получает данные о том, сколько денег он готов потратить на тот или иной товар. Чем больше покупок совершает пользователь, тем больше информации о его доходе получает система. Это помогает ей прогнозировать действия пользователя и составлять индивидуальную подборку товаров или услуг для каждого из них.
– Актуальные предложения. Источник: геопозиция пользователя. Благодаря тому, что система знает, где находится пользователь, она может демонстрировать актуальный контент для каждого конкретного пользователя. Эта персонализация активно применяется на сайтах интернет-магазинов, туроператоров, сервисах генерирования маршрутов, сайтах с расписанием транспорта и прочих.
Персонализация в приложениях:
– Взаимосвязь с другими пользователями. Источник: смартфон и социальные сети. На сегодняшний день смартфон является самым большим источником информации о пользователе: мало того, что создатели приложений получают информацию о том, как зовут пользователя, каким устройством он пользуется и где находится, они также могут получить доступ к контактам его телефона, камере, микрофону, SMS-перепискам, а в некоторых случаях - доступ к страницам в социальных сетях. Такие сети сами по себе собирают огромное количество информации, поэтому получая доступ к ним, создатели приложений получают информацию не только о пользователе, но и о его окружении, друзьях и родственниках, что даёт безграничные возможности персонализации. Например, приложение Facebook анализирует контакты из смартфона пользователя, ищет внутри себя потенциально полезные для данного пользователя контакты и присылает уведомления в виде баннеров с текстом: «Возможно, Вы знаете этих пользователей…». Социальные сети активно сотрудничают с самыми разными интернет-ресурсами. Например, если речь идёт об интернет-магазине, возможен такой сценарий: пользователь осуществляет покупку и оставляет отзыв в социальной сети со ссылкой на магазин. Если второй пользователь, связанный с первым через социальную сеть зайдёт на этот же сайт, система оповестит его о том, что его «друг» совершил покупку и остался доволен со ссылкой на данный комментарий. Другим примером могут служить ресурсы с комментариями. Например: пользователь зашёл на сайт и оставил комментарий в обсуждении с помощью социальной сети. Эта информация мгновенно становится доступна всем «заинтересованным» пользователям, и многие из них начинают либо распространять эту информацию дальше (пассивное участие), либо помимо этого ещё и оставлять собственные комментарии (активное участие). Всё это способствует обогащению как социальных сетей, так и интернет-ресурсов информацией для персонализации: тексты комментариев анализируются, и информация о пользователях в базах данных систем становится всё более подробной. Всё это позволяет собирать статистику, которая помогает определить, в чём заинтересованы пользователи и что им нужно, (с одной стороны чтобы формировать предложение в соответствии со спросом, а с другой - чтобы выделить тенденции развития общества, например, политические настроения в государстве, и грамотно манипулировать общественным сознанием).
Так как персонализация была изобретена для увеличения конверсии сайтов, самыми персонализированными ресурсами являются интернет-магазины. Там большинство разделов сайта персонализированы. Например: пользователь является постоянным покупателем в интернет-магазине. При входе на сайт он может видеть несколько блоков:
– Блок с именем и персональным обращением (используется регистрационная информация или файлы Cookie);
– Блок с информацией об актуальных скидках (для разных групп пользователей этот блок отображается по-разному);
– Блок с информацией о потенциально интересных товарах (используется история просмотров и покупок) и актуальной информацией о количестве товара на складе (используются данные со склада и геопозиция пользователя);
– Блок с информацией о высоком спросе на товар (при просмотре конкретного товара). Например, в виде небольшого баннера с текстом: «В настоящее время данный товар просматривается ещё [количество_пользователей] пользователями».
– Блок с информацией о незавершённых покупках. Например, если пользователь начал добавлять файлы в корзину, но так и не оформил заказ (используется информация из базы данных системы или Cookie-файлы браузера).
И так далее. При этом от рассматриваемого пользователя скрываются:
– Блок для подписки на E-MAIL рассылку (пользователь уже подписан или отписался);
– Блок с информацией для новых пользователей, например, с информацией про скидку на первую покупку (не актуально);
– Блок с информацией о скидках на уже купленные товары (не актуально) и прочие.
Из выше перечисленного следует, что в зависимости от того, какими данными о пользователях обладает система, и того, какую цель преследуют её создатели, возможно формирование тех или иных сценариев персонализации контента. Как правило, производители применяют не один, а несколько видов, комбинируя их. Таким образом создаются системы персонализированного контента.
4. Критерии персонализации
В зависимости от глубины используемых алгоритмов системы получают различную информацию о пользователях, которая впоследствии используется для таргетирования[2]. Эти данные используются в качестве критериев персонализации:
- Имя. В почтовых рассылках каждое письмо начинается с обращения к пользователю с подстановкой его имени. Это снижает риск того, что письмо будет воспринято как спам и не будет прочитано. В случае если алгоритм персонализации располагает лишь теми данными, что пользователь ввёл при регистрации на сайте, вместо имени используется логин.
- Просмотренные или купленные товары. Каждая вещь в интернет-магазине обладает огромным количеством меток: область, категория, группа и так далее. Чем больше пользователь ищет что-то в интернет-магазине, тем больше о нём данных получает система. Например, если пользователь зашёл в группу детских товаров, значит по меньшей мере в его жизни появился или появится ребёнок. Далее в зависимости от посещаемых категорий и групп можно установить примерный возраст и пол ребёнка. Однако, система должна быть настроена таким образом, чтобы анализировать частоту таких запросов, потому что может оказаться, что ребёнок - это временное явление в жизни конкретного пользователя (например, мужчина идёт в гости к другу, у дочери которого скоро день рождения, то есть ищет подарок и не собирается в последствии скупать половину магазина).
- Дата покупки. Вокруг даты покупки строится отдельная сложная стратегия взаимодействия с пользователем. Система настраивается таким образом, чтобы пользователь не страдал от навязчивой рекламы, но и не забывал о магазине. Также на длинном временном интервале даты покупок пользователей позволяют собрать хорошую статистику как общую, так и личную для каждого покупателя. Общая статистика наглядно демонстрирует периоды активного и пассивного спроса, а значит, от года к году расширяет возможности прогнозирования, демонстрирует провисающие сегменты и так далее.
- Средний чек. Средний чек демонстрирует, сколько пользователь готов потратить в интернете. В зависимости от этого система подбирает ему соответствующие категории товаров.
- Количество товаров в заказе. Количество товаров также информативно для системы: проанализировав, можно предположить количество членов семьи или группы людей, направления их интересов, иногда даже примерный возраст и пол. Эта информация позволяет системе выделять пользователей в отдельную группу, а производители, получая информацию о том, что в их системе существуют такие пользователи и в таком количестве, разрабатывают новые маркетинговые стратегии, например, формируя более сложную политику скидок.
- Количество покупок клиента. Количество покупок и даты их совершения необходимы для анализа частоты активности пользователя. Знание этой частоты необходимо, потому что в противном случае производители не смогут настроить систему на комфортный для пользователей уровень персонализации (например, почтовая рассылка с напоминаниями будет приходить слишком часто).
- Геолокация. Естественно, геолокация запоминается системой всегда и везде. При любой возможности и под любым предлогом у пользователя получают информацию (прямым или косвенным способом) о его местонахождении. Это нужно для того, чтобы пользователь получал только актуальный для него контент.
- Действия на сайте. Поведение пользователя на сайте - ещё одна информационная статистика. Система запоминает всё: какие пользователь посещает страницы, куда он кликает курсором, на каких страницах задерживается дольше, на каким - меньше, проходит ли он процесс регистрации, наполняет ли корзину, бросает ли её и так далее. Соответственно, вся эта информация используется для анализа не сколько пользователя, сколько самого сайта на наличие слабых мест. Ведётся поиск элементов, по каким-либо причинам отталкивающих клиентов, некорректно спроектированных интерфейсов и просто системных ошибок.
- Действия в письме. Помимо того, что персонализация используется на самих сайтах, она также используется и в письмах. Аналогично с действиями на сайте действия в письме отслеживаются и анализируются.
- Более личные данные: пол, дата рождения и прочее. В персонализации всегда должна быть заложена корректность поведения. Если пользователь впервые зарегистрировался на сайте, он не должен сразу быть завален рассылкой, содержащей большое количество личной информации, которую он системе самолично и не предоставлял (хотя у системы эта информация уже имеется). Несоблюдение корректности поведения (как при первом знакомстве) и навязчивая рассылка приводят к потере клиентов. Однако, если система осведомлена о дате рождения клиента, а предприятие в рамках скидочной программы поощряет именинников, пользователю будет приятно получить на почту личное поздравление от компании и уведомление о возможности приобретения товаров со скидкой.
Перечисленные выше критерии персонализации являются не единственными, но наиболее популярными.
5. Кластеризация информации
Кластеризация (или кластерный анализ) -- это задача разбиения множества объектов на группы, называемые кластерами[2]. Внутри каждой группы должны оказаться «похожие» объекты, а объекты разных групп должны быть как можно более отличны. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.
Формально задача кластеризации звучит следующим образом[5]. Пусть -- множество объектов, -- множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами . Имеется конечная обучающая выборка объектов . Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике , а объекты разных кластеров существенно отличались. При этом каждому объекту приписывается номер кластера .
Применение кластерного анализа в общем виде сводится к следующим этапам:
1. Определение множества переменных, по которым будут оцениваться объекты в выборке. При необходимости - нормализация значений переменных.
2. Вычисление значений меры сходства между объектами.
3. Применение метода кластерного анализа для создания групп сходных объектов (кластеров).
Алгоритмы кластеризации можно классифицировать по методам следующим образом[5]:
- Иерархический подход (направление «снизу-вверх» или «сверху-вниз»). Результатом работы иерархического алгоритма является дендограмма (иерархия), позволяющая разбить исходное множество объектов на любое число кластеров. Два наиболее популярных алгоритма строят разбиение «снизу-вверх»: Single-link на каждом шаге объединяет два кластера с наименьшим расстоянием между двумя любыми представителями, а Complete-link - между двумя наиболее удалёнными представителями. Самым популярным иерархическим алгоритмом с направлением «сверху-вниз» является алгоритм минимального покрывающего дерева, который в свою очередь является представителем семейства алгоритмов поиска кратчайшего пути в графе.
- Вероятностный подход. Предполагается, что каждый рассматриваемый объект относится к одному из k классов. Наиболее известным представителем является алгоритм k-means.
- Подходы на основе систем искусственного интеллекта. Наиболее известным представителем является алгоритм C-means.
Всего существует девять наиболее распространённых алгоритмов кластеризации информации[6]: CURE, BIRCH, MST, k-means, PAM, CLOPE, HCM, Fuzzy C-means, WaveCluster. Достоинства и недостатки этих алгоритмов приведены в таблице 1.
Таблица 1
Метод |
Достоинства |
Недостатки |
|
CURE |
- кластеризация высокого уровня даже при наличии выбросов; - выделение кластеров сложной формы и различных размеров; |
- работает только с числовыми данными; - необходимость в задании пороговых значений и количества кластеров. |
|
- обладает линейно зависимыми требованиями к месту хранения данных и временную сложность для данных высокой размерности. |
|||
BIRCH |
- двухступенчатая кластеризация; - кластеризация больших объемов данных; - работает на ограниченном объеме памяти; - является локальным алгоритмом; - может работать при одном сканировании входного набора данных; - данные могут быть неодинаково распределены по пространству; - обрабатывает области с большой плотностью как единый кластер. |
- работает только с числовыми данными; - хорошо выделяет только кластеры выпуклой или сферической формы; - необходимость в задании пороговых значений. |
|
MST |
- работает с большими |
- чувствителен к |
|
наборами произвольных данных; - выделяет кластеры произвольной формы (выпуклой и вогнутой форм); - выбирает из нескольких оптимальных решений лучшее. |
выбросам. |
||
k-means |
- простота использования; |
- чувствителен к выбросам; |
|
- скорость работы; - понятность и прозрачность алгоритма. |
- медленная работа на больших объёмах; - необходимо задавать количество кластеров; - невозможность применения на данных, где есть пересекающиеся кластеры; - не гарантируется достижение глобального минимума; - работа алгоритма сильно зависит от выбранных начальных центров кластеров, |
||
оптимальное значение которых не может быть известно заранее. |
|||
PAM |
- простота использования; - скорость работы; - понятность и прозрачность алгоритма; - менее чувствителен к выбросам в сравнении с k-means. |
- необходимо задавать количество кластеров; - медленная работа на больших базах данных. |
|
CLOPE |
- кластеризация огромных наборов категорийных данных; - масштабируемость; - скорость работы; - качество кластеризации, что достигается использованием |
||
глобального критерия оптимизации на основе максимизации градиента высоты гистограммы кластера; - легко рассчитывается и интерпретируется; - малый объём |
|||
ресурсов; - автоматически подбирает количество кластеров; - регулируется одним параметром - коэффициентом отталкивания. |
|||
HCM |
- легкость реализации; - вычислительная простота. |
- задание количества кластеров; - отсутствие гарантии в нахождении оптимального решения. |
|
Fuzzy C-means |
- нечеткость при определении объекта в кластер позволяет классифицировать пограничные объекты. |
- вычислительная сложность; - задание количества кластеров; - неопределённость с выбросами. |
|
WaveCluster |
- может обнаруживать кластеры произвольных форм; - не чувствителен к шумам. |
- сложность реализации; - применим только к данным низкой размерности. |
Так как в настоящее время наиболее востребованными являются вероятностные подходы и подходы на основе нейронных сетей[7][8], далее будут рассмотрены алгоритмы k-means и C-means.
k-means
Алгоритм кластеризации k-means разбивает множество элементов векторного пространства на заранее известное число кластеров k. Действие алгоритма таково, что он стремится минимизировать среднеквадратичное отклонение на точках каждого кластера[7]. Основная идея заключается в том, что на каждой итерации центр масс, полученный на предыдущем шаге, вычисляется заново. Затем векторы разбиваются на кластеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбранной метрике. Алгоритм завершается, когда на какой-то итерации не происходит изменения кластеров. На рисунке 1 изображена блок-схема алгоритма k- means.
Рисунок 1. Блок-схема алгоритма k-means
C-means
Алгоритм нечеткой кластеризации c-means является модификацией алгоритма k-means. Его главными преимуществами является то, что он основывается на теории нечетких множеств и теории искусственных нейронных сетей[7].
Нечеткое разбиение позволяет решить проблему объектов, расположенных на границе двух кластеров - им назначают степени принадлежностей равные 0,5[8].
Самоорганизация алгоритма позволяет решить проблему точного определения положения центров масс кластеров, которые в последствии используются для обучения нейронной сети в качестве начальных значений, что существенно ускоряет процесс обучения и гарантирует сходимость решения к глобальному минимуму[9].
Рисунок 2. Блок-схема алгоритма c-means
,
Формула 1. Определение центров масс кластера, где - количество нечетких нейронов, - центр массы кластера, - вектор входных данных, - степень принадлежности входных данных к кластеру, - количество компонентов векторов , - степень нечеткости кластера.
,
Формула 2. Расчет значения функции погрешности.
,
Формула 3. Расчет новых значений степени принадлежности , где - Евклидово расстояние между центром и вектором .
Заключение
Персонализация сегодня является быстрорастущим и перспективным направлением для решения задач определения потребностей пользователя. Благодаря техническому прогрессу и высокой скорости вычислений современных компьютеров возможно использование самых сложных алгоритмов для таргетирования контента по данным о пользователях необходимостям и потребностям с использованием теории нечетких множеств и нейронных сетей.
Однако, огромные возможности механизма персонализации породили такое явление, как персональная навязчивая реклама. Производители порой увлекаются, делая, как им кажется, эффективную рекламную кампанию, они используют эту мощную технологию без ограничений. Зачастую это приводит к нарушению личного пространства пользователей, некорректной работе анализирующих алгоритмов и потере потенциально заинтересованных посетителей сайтов.
Таким образом, несмотря на то, что в основе персонализации лежит множество сложных алгоритмов, технология по-прежнему требует непосредственного человеческого вмешательства.
Список литературы
1. Агрегация контента. Прошлое, настоящее, будущее // Хабрахабр [Электронный ресурс]. Режим доступа: habrahabr.ru/post/156837 (2012).
2. Персонализация и сегментирование // Web Аналитик [Электронный ресурс]. -- Режим доступа: www.sem-complexs.ru/service/individual-conversion-plan/personalizaciya-i-segmentirovanie/ (2014).
3. Персонализация контента // Web-Content [Электронный ресурс]. -- Режим доступа: www.web-content.com.ua/publications.html?id=107 (2011).
4. Зайцев И.Б., Адаптивные гипермедиа издания, интегрированные в Интернет: Диссертационная работа к.т.н.: 05.13.06. /Московский государственный университет печати. Москва, 2005. -- 150 с.
5. Мандель И. Д. Кластерный анализ. -- М.: Финансы и статистика, 2009. -- 176 с.
6. Yang Y. CLOPE: A fast and Effective Clustering Algorithm for Transactional Data In Proc of SIGKDD'02 / Y. Yang, H. Guan, J. You // July 23-26, - Edmonton, Alberta, Canada, 2002.
7. Далингер В.А. Элементы теории нечетких множеств на элективном курсе в классах экономического профиля // Современные наукоемкие технологии. - 2014. - № 10. - С. 121-123.
8. Джонс М.Т. Программирование искусственного интеллекта в приложениях / М. Тим Джонс; Пер. с англ. Осипов А.И. -- М.: ДМК Пресс, 2006. - 312 с.
9. Терехов В.А. Нейросетевые системы управления. - М: Высшая школа, 2002. - 183 с.
Размещено на Allbest.ru
...Подобные документы
Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.
дипломная работа [2,5 M], добавлен 01.07.2017Классификация без обучения и кластерный анализ. Расстояние между кластерами. Функционалы качества разбиения. Иерархические кластерные процедуры. Дискриминантный анализ. Решение задач дискриминантного анализа в системе компьютерной математики Mathcad.
курсовая работа [1,3 M], добавлен 17.09.2012Постановка задачи. Математическое обоснование. Последовательность разбиений множества. Язык программирования. Реализация алгоритмов. Генерирование разбиений множества. Генерирование всех понятий.
курсовая работа [29,9 K], добавлен 20.06.2003Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Методы поиска подмножеств множества вершин V графа G, удовлетворяющих определенным условиям и свойствам. Понятие независимых множеств и порядок их генерации. Определение доминирующего множества. Основные этапы решения задачи о наименьшем разбиении.
контрольная работа [32,1 K], добавлен 11.03.2010Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.
лабораторная работа [998,9 K], добавлен 25.11.2014Задачи применения модели персонализации в сети Интернет. Программная реализация интеллектуальной системы, позволяющей при заданном запросе подбирать клиенту необходимый косметический товар. Использование ассоциативных правил для разработки программы.
курсовая работа [1,3 M], добавлен 17.04.2012Сущность и понятие кластеризации, ее цель, задачи, алгоритмы; использование искусственных нейронных сетей для кластеризации данных. Сеть Кохонена, самоорганизующиеся нейронные сети: структура, архитектура; моделирование кластеризации данных в MATLAB NNT.
дипломная работа [3,1 M], добавлен 21.03.2011Ознакомление с элементами топологии базы геоданных. Исследование и характеристика особенностей кластерной обработки. Изучение алгоритмов, использующихся при проверке и кластеризации. Анализ процесса использования пространственных отношений объектов.
презентация [749,3 K], добавлен 18.10.2017Решение задач по информатике, перебор различных комбинаторных конфигураций объектов и выбор наилучшего, с точки зрения условия задачи. Генерация k-элементных подмножеств, всех подмножеств данного множества, всех перестановок n-элементного множества.
реферат [44,0 K], добавлен 03.01.2010Сущность и основные задачи биомедицинской кибернетики. Особенности текущего момента развития ИТ в области наук о жизни. Применение кластерного анализа в процессе наблюдения за состоянием пациентов. Изучение требований к подготовке врачей-кибернетиков.
презентация [5,1 M], добавлен 08.08.2013Описание сновных достоинств операционной системы Windows. Удобный графический интерфейс, высокая надежность работы, поддержка широкого спектра современных устройств, богатые возможности персонализации настроек и глубокая интеграция с Интернетом.
реферат [103,4 K], добавлен 21.10.2009Изучение теоретических положений, раскрывающих структуру линейных и нелинейных стационарных и динамических объектов. Математическое описание и решение задачи анализа такого рода объектов. Анализ линейных стационарных объектов. Средства матричной алгебры.
контрольная работа [1,4 M], добавлен 14.02.2009Понятие нечеткого множества и функции принадлежности. Методы дефаззификации (преобразования нечеткого множества в четкое число) для многоэкстремальных функций принадлежности. Нечеткий логический вывод. Примеры выпуклого и невыпуклого нечеткого множества.
презентация [111,7 K], добавлен 16.10.2013Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Особенности кластеризации социальных сетей, методы распознавания сообществ. Особенности локального прореживания графа. Разработка рекомендаций по выбору метода кластеризации для выделенных классов задач. Оптимизация процесса дальнейшей обработки данных.
курсовая работа [1,8 M], добавлен 30.06.2017Изучение теоретических положений, раскрывающие структуру линейных и нелинейных стационарных и динамических объектов, математическое описание и решение задачи анализа объектов. Использование для решения функции системы математических расчетов MathCAD.
контрольная работа [317,7 K], добавлен 16.01.2009Общая методика решения задачи определения связанного множества пикселей с помощью функции bwlabel, в языке моделирования Matlab. Возможности оптимизации программы по временным характеристикам для возможности использования функции в анализе видеопотока.
статья [894,5 K], добавлен 11.03.2009Определение архитектуры реляционных СУБД. Рассмотрение кластеризации как основного способа минимизации числа дисковых операций ввода-вывода данных. Применение индексов для повышения производительности SQL-запросов. Процесс кэширования в базах данных.
курсовая работа [61,1 K], добавлен 15.07.2012Создание методов, оценивающих информационное содержание накопленных массивов наблюдений, проверка внутренней однородности. Пример кластерного анализа, основанного на использовании "цепочечного эффекта" для формирования однородных групп наблюдений.
презентация [6,0 M], добавлен 31.03.2011