Метод иерархического Байеса

Конджойнт-анализ как статистический метод в маркетинге, применяемый для исследования предпочтений потребителей. Обзор основных математических методов, используемых в совместном анализе. Регрессия с фиктивными переменными. Расчет важностей атрибутов.

Рубрика Маркетинг, реклама и торговля
Вид дипломная работа
Язык русский
Дата добавления 28.08.2016
Размер файла 4,7 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

3. Программное обеспечение для байесовского анализа

Процедура получения новых значений параметров в Sawtooth

Иерархическая модель

Байесовский анализ называется иерархическим, потому что включает в себя два уровня. На верхнем уровне мы предполагаем, что индивидуальные частичные полезности описаны многомерным нормальным распределением. Это распределение включает в себя вектор средних значений и ковариационную матрицу. Для того, чтобы разобрать эту модель чуть подробнее, мы составили несколько объяснений.

(где - это вектор частичных полезностей для i- того индивида; - это вектор средних значений распределений индивидуальных частичных полезностей, D - матрица дисперсий и ковариаций распределения частичных полезностей для всех индивидов.)

На нижнем уровне мы полагаем, что индивидуальные частичные полезности в терминах вероятностей описываются мультиноминальной логистической регрессией. В этой модели вероятность для i-того респондента выбрать k-тую альтернативу может быть записана в следующем виде:

где - это вероятность того, что индивид выберет k-тую альтернативу из данного задания, - вектор значений, которые принимали уровни в данной карточке, 30 The CBC/HB System for Hierarchical Bayes Estimation Version 5.0 Technical Paper P8 [http://www.sawtoothsoftware.com/support/technical-papers/hierarchical-bayes-estimation/cbc-hb-technical-paper-2009].

Марковская цепь в Sawtooth

В этом разделе мы опишем процедуру с помощью который мы получаем новые значения интересующих нас параметров непосредственно в conjoint анализе, выполненном в программном обеспечении Sawtooth. Параметры в, б и D оцениваются посредством итераций Марковской цепи, сочетая алгоритмы Gibbs sampling и Metropolis Hastings. На первой итерации мы по умолчанию задаем значение всех параметров равным 0. Каждая последующая итерация будет состоять из четырех шагов:

1. Используя оценки в и D, генерировать новую оценку б.

Мы предполагаем, что б нормально распределена со средним значением равным среднему по всем в и матрице ковариаций, равной D/n (n - число респондентов). Новое значение б получается из заданного распределения.

2. Используя оценки б и в, сгенерировать оценку D

3. Используя оценки б и D, сгенерировать новую оценку в

Исключительно для данного шага используется алгоритм Metropolis Hastings

4. Повторить

На каждом шаге мы переоцениваем один из интересующих нас параметров, учитывая данные по другим двум параметрам. Данная техника соответствует алгоритму «Gibbs sampling»

Подробное описание итераций Марковской цепи мы начнем с шага, на котором мы получаем новые значения в для каждого респондента индивидуально. Мы будем использовать символ в0 (“beta old”) для того, чтобы выделить оценку частичных полезностей, полученную на предыдущей итерации. Величина, которую мы сгенерируем в качество новой оценки, будет фиксироваться нами как вn (“beta new”)

Далее мы проведем тест вn. Если новая оценка продемонстрирует улучшение, то она будет принята, и мы используем ее как в0 на следующей итерации. Если же мы не выявим улучшений, то мы примем ее или отвергнем новую оценку с вероятностью того, насколько она хуже предыдущей оценки.

Для того, чтобы получить вn мы создаем случайный вектор d («различие») из распределения со средним значением равным 0 и ковариационной матрицей, пропорциональной D, такой что:

Мы считаем вероятность «правдоподобия» из формулы байеса z, используя формулу Pk для логит модели. Это делается с помощью вычисления вероятности каждого выбора, который делает индивид внутри карточки. После того как мы провели вычисления мы создаем значения P0 и Pn соответственно.

Помимо «правдоподобия» мы также считаем плотность вероятности для каждой из оценок в, при условии данных изначально параметров б и D, которые установлены как «априорные» величины в Байесовской модели. Мы называем эти переменные d0 и dn соответственно.

Относительные плотности вероятностей рассчитываются по формуле:

В завершение мы считаем соотношение:

В байесовском подходе мы установили, что «апостериорные вероятности» пропорциональны произведению «правдоподобия» и «априорных вероятностей». Вероятности P0 и Pn - это «правдоподобия» при условии в0 и вn. Частоты d0 и dn пропорциональны вероятностям получить оценки в0 и вn. Они используются в Байесовском уравнении в качестве «априорных вероятностей». Таким образом, - это соотношение «апостериорных вероятностей» двух оценок в0 и вn при условии исходных оценок б и D в качестве информации из данных.

Если равен объединению вероятностей двух событий , то вn обладает «апостериорной вероятностью» либо равной в0. Это значит, что мы принимаем вn как нашу следующую оценку в0. Если больше или меньше объединения вероятностей двух событий, то вn обладает «апостериорной вероятностью» меньшей или большей, чем в0. Мы должны принять решение с помощью уравнения детального баланса, оставляем ли мы вn как нашу следующую оценку в0 с вероятностью g, или мы получим вn в одной из следующих итераций. Подводя итог, достаточным критерием для точного принятия вn является соотношение «апостериорных вероятностей» равное 1-му.

Как было сказано ранее, существуют два подхода для принятия решения по поводу вn. Если вn лучше соответствует данным, чем в0, то Pn будет гораздо больше, чем P0 . Это, в свою очередь, значит, что соотношение будет больше. Тем не менее, обе относительные плотности тоже участвуют в формуле соотношения. Следовательно, у большей плотности больше преимуществ The CBC/HB System for Hierarchical Bayes Estimation Version 5.0 Technical Paper P8.

Мы упоминали, что вектор d («вектор различия») получается из распределения со средним равным нулю и ковариационной матрицей, пропорциональной D, но мы не уточнили аспект пропорциональности. В литературе распределение, из которого берется d, называется «jumping distribution», поскольку оно обуславливает размер случайного прыжка из в0 в вn . Пропорциональность и длина прыжка должна выбираться исследователем тщательно, потому что от нее зависит скорость сходимости цепи. Слишком большие прыжки, к сожалению, не будут приниматься, а слишком маленькие - уменьшат скорость сходимости.

«Алгоритм Metropolis-Hastings может быть описан пропорцией «прыжков», которые были приняты. Для многомерного нормального распределения оптимальным является следующие пропорции принятых «прыжков». Приблизительно 44% «прыжков» принимается в одном измерении, и количество принятых «прыжков» снижается до 23%, когда алгоритм работает с большим числом измерений… Такое описание позволяет подстраиваться под процесс симуляции Gelman, A., Carlin, J. B., Stern H. S. and Rubin, D. B. (1995) “Bayesian Data Analysis,” Chapman & Hall, Suffolk. P 335»

Пакет функций для байесовского анализа Bayesm

Для анализа данных совместного анализа, основанного на дискретном выборе, в конкретной работе будет использоваться программное обеспечение R в сочетании с интерфейсом R-Studio. R позволяет сторонним разработчикам выпускать дополнения для R в виде пакетов определенного рода функций. И размещать их на форуме. Среди пакетов для свободного скачивания и установки доступен пакет bayesm, предназначенный для свободного пользования.

Пакет bayesm разработан Питером Росси. Разработчик обновляет пакет приблизительно раз в год, поэтому пакет функций относительно свежий. Последняя дата обновления 05.06.15. Функции пакета покрывают почти все популярные и часто используемые алгоритмы иерархического байесова моделирования. Регламентация данных алгоритмов присутствует в сжатом виде в инструкциях R, а в более полном виде ее можно найти в учебнике П. Росси Bayesian Statistics in Marketing.

Анализ предпочтений на рынке услуг сотовых операторов будет проводиться с помощью функции RhierMlnRwMixture. Выбор был сделан в пользу данной модели, поскольку по описанию, она наиболее близка к той, что используется в сервисе Sawtooth. RhierMlnRwMixture - это алгоритм иерархической мультиноминальной регрессии со миксом гетерогенных распределений. На каждом шаге значения параметров генерируются с помощью сочетания алгоритмов Гиббса и Метрополиса Документация пакета bayesm 3.02 [https://cran.r-project.org/web/packages/bayesm/bayesm.pdf].

4. Практический алгоритм проведения традиционного совместного анализа в SPSS

Теоретический объект: структура потребительских предпочтений мобильных телефонов среди студентов Высшей Школы Экономики.

Эмпирический объект исследования: студенты Высшей Школы Экономики

Предмет исследования: анализ компромиссного выбора студентов между моделями смартфонов, которые различаются по характеристикам

Задачи исследования:

1. Определить наиболее значимые характеристики смартфонов для будущего теста на предмет потребительских предпочтений.

2. Когда характеристики определены, мы можем приступить к созданию дробного ортогонального плана для нашего эксперимента.

3. После создания плана, мы переходим к созданию анкеты.

4. Как только анкета готова, мы проводим опрос, чтобы получить данные о предпочтениях потребителей

5. В заключение, готовится и презентуется отчет о структуре потребительских предпочтений. Считаются частичные и общие полезности. Считаются индивидуальные полезности. Проводится сегментация.

На этапе подготовки эксперимента исследователю необходимо задать несколько характеристик смартфонов, которые он собирается изучить методом conjoint анализа. Отбор характеристик смартфонов для более подробного изучения - это, чаще всего, чисто субъективная творческая процедура. В ее основу чаще всего ложатся личные субъективные представления исследователя о значимости характеристик товара. Иногда бывают и исключения из этого правила. Возможен случай, когда исследователь, например, сталкивается с товаром, о потреблении которого у него еще не сложилось ясное представление. Это может быть, какой-нибудь инновационный товар вроде одноколесного Segway или Oculus Rift, вокруг которых еще не сформировались устойчивые практики потребления. В таком случае ученый может провести разведывательное качественное исследование. Качественное исследование позволит зафиксировать, на каких свойствах товара преимущественно фокусируются потенциальные потребители, когда совершают выбор. И хотя, качественные методы для подготовки conjoint анализа, безусловно, достойны изучения, но данная работа сосредоточена на самом conjoint анализе, поэтому мы будем работать с более прозрачными примерами вроде смартфонов или услуг мобильных операторов.

Мы провели отбор наиболее значимых характеристик. Далее характеристики необходимо структурировать в виде атрибутов и уровней, поскольку такой дизайн требует conjoint анализ. Таблицу атрибутов и уровней для настоящего conjoint regular можно увидеть на таблице 2

Атрибуты и уровни исследования предпочтений в смартфонах

Таблица 2. Атрибуты и уровни исследования

Атрибуты

Диагональ дисплея

Часов без подзарядки

Разрешение экрана

Объем памяти

Мегапиксели

Уровни

1

4 дюйма

16 часа

720

16 ГБ

8

2

5 дюймов

24 часов

1440

64 ГБ

10

3

6 дюймов

36 часов

1080

128 ГБ

20

Создание ортогонального плана

В первую очередь, это делается для того, чтобы облегчить работу респонденту, во-вторых, исследователю не придется анализировать все возможные сочетания факторов, а только отдельные наборы факторов Построение ортогонального плана в SPSS

[https://drive.google.com/folderview?id=0Bz__UAMPHUi2UzBfZnYtNFp0ckk&usp=sharing_eid&ts=56b21dfd&usp=sharing_eid&tid=0Bz__UAMPHUi2M0c3c0VUWVRFUWs]. Ортогональный план строится по принципу главных эффектов. Отображение дизайна эксперимента приведено в таблице z

Номер карточки

Диагональ дисплея

Часов без подзарядки

Разрешение экрана

Объем памяти

Мегапиксели

1

1

6 дюймов

24 часа

720

64 ГБ

8

2

2

4 дюйма

36 часов

720

128 ГБ

10

3

3

6 дюймов

36 часов

1080

16 ГБ

8

4

4

4 дюйма

24 часа

1440

16 ГБ

10

5

5

4 дюйма

16 часов

720

16 ГБ

8

6

6

5 дюймов

16 часов

720

16 ГБ

20

7

7

4 дюйма

16 часов

720

16 ГБ

8

8

8

4 дюйма

16 часов

1080

128 ГБ

8

9

9

5 дюймов

36 часов

1440

16 ГБ

8

10

10

5 дюймов

24 часа

720

128 ГБ

8

11

11

6 дюймов

16 часов

720

16 ГБ

10

12

12

6 дюймов

16 часов

1440

128 ГБ

20

13

13

4 дюйма

36 часов

720

64 ГБ

20

14

14

4 дюйма

24 часа

1080

16 ГБ

20

15

15

5 дюймов

16 часов

1080

64 ГБ

10

16

16

4 дюйма

16 часов

1440

64 ГБ

8

Схема опроса

С учетом выбора модели анализа, респондентов просят проранжировать профили по степени предпочтительности. На первом месте должен был оказаться тот профиль, который больше всего импонирует респонденту, а на последнем - тот, что меньше всего ему нравится. Интервьюирование обычно не вызывает вопросов за исключением того, что профилей довольно много и респондентам трудно запомнить все и ориентироваться в выборе моделей в условиях ограниченного времени. Данную проблему можно решать

4.2 Подготовка отчета о структуре потребительских предпочтений

В настоящее время подавляющее большинство conjoint анализов по методике regular проводится с помощью статистического пакета для социальных наук SPSS. Такая приверженность пакету объясняется двумя причинами. Во-первых, его доступность. Во-вторых, SPSS - это программа, которая относительно простая в использовании; для работы с ней есть тысячи инструкций в текстовом и видео форматах на разных языках, по SPSS проводятся мастер-классы, а его интерфейс вполне дружелюбен для тех, кто хочет проводить исследования, но, к сожалению, не владеет языками программирования.

Для проведения conjoint в SPSS, начиная с 14 версии пакета, появилась функция “CONJOINT”, которая позволяет посчитать, общие и частичные полезности, а также полезности по группам и даже на индивидуальном уровне.

4.3 Вычисление полезностей уровней

В основе функции CONJOINT в SPSS чаще всего лежит модель множественной линейной регрессии, выполненная методом наименьших квадратов.

y = b0 + b1x + …bnx + u

Выбор модели линейной регрессии обусловлен техникой опроса в традиционном regular conjoint. Проводя опрос, мы хотим узнать предпочтения потребителя, для этого в традиционном конджоинте респондент ранжирует несколько профилей. В итоге мы получаем переменную потребительских предпочтений, которую можно охарактеризовать как порядковую, или даже при некоторых допущениях интервальную шкалу. Если мы выбираем из простых моделей, которые есть в SPSS, то с такой шкалой любой добросовестный социолог будет работать, используя множественную линейную регрессию Кутлалиев А. Захарова T. Метод совместного анализа как инструмент изучения предпочтений потребителей Теория и история методов стр 33.

Надо заметить, что множественный линейный регрессионный анализ в случае conjoint в SPSS имеет ряд недостатков. Во-первых, процедура проведения conjoint в SPSS не учитывает возможных ограничений множественной регрессии на нормальность распределения, мультиколлинеарность и гомоскедастичность. Во-вторых, сама модель множественной регрессии, как правило, плохо описывает данные. Ее предсказательная сила часто гораздо меньше, чем у логистической модели. Особенно это заметно, если мы располагаем малым числом исходных наблюдений.

Пример со смартфонами - это conjoint, выполненный на малом числе наблюдений. D нашей выборке всего 24 респондента. Каждый атрибут встречается респондентом 16 раз, а каждый уровень, исходя из таблицы z с профилями, встречается от 4 до 8 раз. Таким образом, если мы считаем множественную линейную регрессию для всей выборки по каждому уровню, то количество наблюдений по каждому уровню лежит в промежутке от 96 до 192.

На основании наблюдений считаются частные полезности уровней по всей выборке. Подсчет частных полезностей по всей выборке может дать нам, например, представление о том, какие характеристики смартфонов являются наиболее и наименее предпочтительными для нашего эмпирического объекта. В таблице 3 представлены оценки полезностей для уровней и их стандартные ошибки из примера со смартфонами.

Таблица 3. Частичные полезности по всей выборке

Атрибут

Уровень

Оценка полезности

Стандартная ошибка

Время работы

16 часов

,532

,298

24 часов

1,065

,596

36 часа

1,597

,894

Разрешение

720

,104

,298

1080

,208

,596

1440

,312

,894

Память

16 ГБ

-,216

,298

64 ГБ

-,433

,596

128 ГБ

-,649

,894

Камера

8

-,641

,298

10

-1,281

,596

20

-1,922

,894

Диагональ дисплея

4 дюйма

-1,190

1,711

5 дюймов

-1,494

2,291

6 дюймов

-,911

1,815

(Константа)

10,083

2,151

Как мы видим из таблицы z оценки полезностей, с одной стороны, дают нам представление о взаимосвязях между переменными. Например, для времени работы очевидно, что полезность смартфона возрастает вместе с увеличением числа часов работы на одном заряде аккумулятора. Однако с другой стороны, CONJOINT в SPSS не выдает нам значимость полученных оценок. Все, что мы видим, это показатели стандартных ошибок в последнем столбце таблицы z. Если более пристально рассмотреть оценки для 24 и 36 часов, то мы столкнемся с тем, что стандартные ошибки, соответствующие этим показателям, довольно высокие. То есть на 95% интервале, если оценка нормально распределена, то мы можем говорить, что оценка полезности уровня 36 часов лежит в промежутке [1,597 - 1,96 x 0,894; 1,597 + 1,96 x 0,894].

Рисунок 3 Распределение оценки полезности для уровня 36 часов.

Только глядя на рисунок, мы уже понимаем, что стандартная ошибка задает нам слишком большую неопределенность оценки. Наша оценка полезности смартфона, который держит заряд 36 часов неустойчива. Она практически равновероятно может принимать значения 1 или 2,5, например. Если она принимает значение равное 1, то нам придется задаться вопросом, а значима ли разница между смартфоном, который держит заряд 24 часа и смартфоном, который не разряжается 36 часов.

В данном примере, мы, конечно же, можем списать неопределенность оценки на маленькую выборку. Мы можем добавить данных в модель, и, скорее всего, стандартные ошибки станут меньше, а распределения устойчивее. Однако, как быть со случаями, в которых мы должны обследовать предпочтения очень немногочисленного или труднодоступного эмпирического объекта?

4.5 Проведение проверки на предсказательную силу модели

Если conjoint в SPSS не дает нам уверенности в статистической значимости данных, то в SPSS можно провести проверку предсказательной силы модели. Для этого в опрос добавляются еще один или два контрольных профиля, которые не участвуют в дальнейшем анализе данных. Эти профили необходимы нам только для проверки. Чтобы провести проверку, надо подставить в наше уравнение множественной линейной регрессии данные из этих дополнительных профилей и известные нам оценки частичной полезности. После подстановки, мы получим новые значения переменной y. Новые значения переменной y необходимо проверить на корреляцию со значениями y, которые мы получили от респондентов.

Для проверки используется корреляция Пирсона для интервальных переменных. Команда CONJOINT в SPSS считает коэффициент корреляции, и оставляет принятие решения о предсказательной силе модели за исследователем. Коэффициент Пирсона, который мы получили в примере со смартфонами приведен в таблице 4

Таблица 4. Проверка модели с помощью контрольного профиля и Пирсона

Коэффициент

Значение

Пирсон

0,794

Значение коэффициента Пирсона в таблице z позволяет диагностировать наличие сильной связи между ответами контрольного профиля и предсказанными значениями. Следовательно, мы можем делать вывод о том, что модель предсказывает значения зависимой переменной с высокой вероятностью 79%.

4.6 Расчет важностей атрибутов

Когда мы знаем частичные полезности, мы можем посчитать важности атрибутов Ii. Зная важность каждого атрибута, мы можем ответить на вопрос, каким характеристикам смартфона заказчику исследования следует уделять больше внимания, а какие и вовсе не повлияют на потребительские предпочтения. Важность атрибута отражает долю объясненной им разницы оценок самого полезного и наименее полезного атрибута. Соответственно, сумма всех важностей атрибутов принимается нами за единицу, а значение важности каждого отдельного атрибута представляет из себя процент от суммы всех важностей. Считается, что чем больше разница между самым полезным и наименее полезным уровнями, тем более чувствителен потребитель к изменению данного атрибута, и наоборот. Расчет важности атрибута производится по следующей формуле:

где Umax i - значение полезности для наиболее предпочитаемого уровня внутри i-го атрибута; Umin i - значение полезности для наименее предпочитаемого уровня внутри i-го атрибута; n - общее число атрибутов.

В примере со смартфонами команда CONJOINT посчитала нам важности атрибутов. Значения важностей представлены на гистограмме 4

Рисунок 4. Значения важностей атрибутов

На гистограмме видно, что наиболее значимый атрибут - это камера, а наименее - разрешение экрана.

Расчет полезностей для смартфона с заданными характеристиками

Допустим, мы хотим посчитать полезность смартфона с таким сочетанием уровней, которое не вошло ни в один из профилей, для которых мы собирали оценки у респондентов. Тогда задача сводится к подсчету общих полезностей на основании частичных полезностей, которые мы уже знаем. Предположим, что мы хотим узнать, какая полезность будет у смартфона с 36 часами, 1440 разрешением, 128 GB, 20 Mpx и 5 дюймов экраном. Для подсчета общей полезности необходимо воспользоваться моделью главных эффектов, которая суммирует полезности каждого уровня, перевзвешенные по важности атрибутов. Ее уравнение выглядит следующим образом:

где U(Xij) - общая полезность продукта; m - количество атрибутов; ki - количество уровней в атрибуте i; Uij - частичная полезность j-го уровня i-го атрибута; Xij равен 1, если в данном продукте присутствует j-й уровень i-го атрибута; wi -важность атрибута.

Если мы применим данную модель для подсчета общей полезности смартфона с топовыми характеристиками, то мы получим значение полезности равное 1,51. Это самое высокое значение общей полезности, поэтому мы будем считать этот смартфон наиболее предпочтительным. Если мы посчитаем полезность смартфона с 16 часами, 720 разрешением, 16 GB, 8 Mpx, и экраном 6 дюймов, мы получим значение 0,57. Это значение является наименьшим из всех, поэтому мы можем считать эту модель наименее предпочтительной для студентов.

Мы уже провели большую половину процедур традиционного conjoint. Мы получили представление о значимости атрибутов и оценки полезностей уровней, мы ответили на несколько исследовательских вопросов для конкретного примера. Теперь же мы можем обобщить полученные знания, и описать исследовательские проблемы, которые решает традиционный conjoint анализ.

· Какие свойства товара наиболее значимы для потребителя?

· Какова полезность отдельных характеристик товара?

· Какие версии товаров буду пользоваться наибольшей и наименьшей востребованностью у потребителей?

Здесь перечислены почти все задачи, которые мы можем выполнить по всей выборке с помощью традиционного conjoint. Отвечая на эти вопросы, мы безусловно, получаем много нужно и важной информации о потребительских предпочтениях. Тем не менее, когда мы считаем полезности по всей выборке, мы чаще всего получаем пресловутую среднюю температуру по больнице. Это значит, что у нас не будет понимания, в каких палатах лежат больные со схожими заболеваниями. Это приводит исследователя к задаче сегментации потребительского поведения. Данную задачу можно решать двумя способами. В первом случае мы можем включить в анкету несколько демографических переменных, которые в последствии помогут нам разбить совокупность на несколько подсовокупностей. Во втором случае, мы займемся подсчетом индивидуальных полезностей и объединением схожего потребительского поведения методом кластерного анализа. В этой главе мы не будем затрагивать тему индивидуальных полезностей. Мы вернемся к ней позже в отдельной главе, специально отведенной для них.

4.7 Достоинства и недостатки метода

Завершая главу, посвященную алгоритму традиционного совместного анализа в SPSS, рассмотрим достоинства и недостатки данного метода. Первое и очевидное достоинство методики - ее способность давать корректные ответы на исследовательские вопросы. Во-вторых, положительным качеством метода, определенно, является завершающий тест предсказательной силы модели с участием контрольных профилей. Последнее достоинство совместного анализа в SPSS является простота метода и легкость его освоения. Несмотря на множество плюсов, conjoint в SPSS обладает рядом сокрушительных минусов. Самое главное отрицательное впечатление от этого метода возникает уже на этапе опроса. Если число профилей, которые мы предъявляем респонденту, больше 10-ти, то у респондента возникают трудности с корректным расположением профилей по ранговой шкале. Во-вторых, совместный анализ в SPSS не подразумевает оценку качества модели линейной регрессии. В output листе исследователь получает только значения бета-коэффициентов и стандартные ошибки. Тем не менее, для оценки точности результатов необходимо еще исследовать регрессионную модель на ограничения, проверить значения R-квадрат и значимость Ф-статистики. В-третьих, шкала, по которой респондент ранжирует объекты представляет из себя количественную переменную. Такой метод сбора данных ограничивает исследователя в выборе математической модели для описания данных.

5. CBC conjoint, выполненный с использованием 4-ех математических моделей

В этом разделе работы рассматривается анализ структуры потребительских предпочтений на рынке операторов сотовой связи методом совместного анализа, основанного на дискретном выборе. На рынке присутствуют 4 оператора, которые желают улучшить свои услуги, опираясь на результаты исследования. Для исследования потребительских предпочтений был проведен онлайн-опрос методом CBC. В онлайн-опросе приняли участие 296 клиентов упомянутых операторов. Принять участие в онлайн-опросе мог любой посетитель сайта, который зашел на сайт своего оператора и согласился ответить на вопросы по улучшению качества услуг. Следовательно, выборка для совместного анализа собиралась стихийно. Тем не менее, к участию в опросе допускалось ограниченное количество желающих; количество клиентов одного оператора, которые могут принять участие в опросе было строго квотировано. Квота для респондентов, являющихся клиентами одного оператора была установлена равной ј выборки, так чтобы от каждого оператора в выборку попало равное количество респондентов.

На собранных данных будет проведен совместный анализ, основанный на дискретном выборе. Сначала мы опишем дизайн исследования потребительских предпочтений, а затем перейдем к анализу данных. Анализ данных будет последовательно проведен с помощью метода COUNT, затем двух математических моделей: множественной линейной регрессии и бинарной логистической регрессии. Мы предполагаем, что логистическая регрессия будет обладать большей предсказательной силой, чем линейная. В конце раздела будет подробно описана модель логистической регрессии, оцененная методом иерархического байесова моделирования.

5.1 Описание дизайна исследования структуры потребительских предпочтений клиентов операторов сотовой связи методом CBC

Дизайн исследования включает в себя 7 атрибутов и от 2 до 7 уровней. Уровни и атрибуты записаны в таблице 5.

Таблица 5. Дизайн эксперимента: набор атрибутов и уровней

Атрибуты

Количество бесплатных минут

Количество гигабайт

Ежемесячный платеж

Бренд

Персонализация

Счет

Количество симкарт

Уровни

100

1

150

1

Есть

Общий

1

200

2

300

2

Нет

Раздельный

2

300

3

450

3

3

400

4

600

4

500

5

750

600

6

700

7

Ортогональность плана

Как мы видим в таблице z, план CBC conjoint в отличие от традиционного conjoint может включать в себя разное число уровней; для атрибута «количество гигабайт» мы выделяем 7 уровней, а для количества сим-карт - только 3. Такой дизайн ставит перед исследователем задачу подготовки более сложного ортогонального дизайна. Для решения этой задачи нам придется сгенерировать 100 карточек, чтобы каждая карточка была уникальна и показывалась только одному респонденту. Генерация карточек может быть проведена с помощью сервиса Sawtooth. Сервис генерирует карточки в соответствии с принципом ортогональности; доли показов каждого уровня на уровне всей выборки должны быть равны. На рисунке z продемонстрирована ортогональность плана CBC конджоинт на примере уровней для атрибута «бесплатные минуты».

Рисунок 5 Количество показов уровней атрибута «бесплатные минуты» по всей выборке

На рисунке z мы видим, что количество показов для всех уровней равно 1500 (точнее 1480), а это значит, что независимо от того, какая карточка попадется респонденту, в целом мы получим ортогональные оценки.

5.2 Расчет частичных полезностей методом COUNT

После того, как мы определились с дизайном эксперимента и собрали данные, мы можем приступить к анализу полученных наблюдений. Анализ можно проводить четырьмя способами. Первый способ - это COUNT или счет. Этот способ не дает нам вероятностные оценки, и мы не можем надеяться на то, что он обладает статистической предсказательной силой. Тем не менее, практики маркетинговых исследований очень любят этот метод. Во-первых, он прост в исполнении и экономит время, во-вторых, он дает довольно наглядные результаты, и в-третьих, на больших выборках значения полезностей становятся близкими к значениям вероятностных оценок, полученных с помощью логистической регрессии или байесовского анализа.

Проведем анализ данных методом COUNT. В математической основе метода лежат элементарные операции сложения; то есть мы складываем вместе все случаи, когда респондент увидел определенный уровень и совершил выбор в пользу профиля с этим уровнем. В результате сложения мы получаем количество выборов в пользу определенного уровня. Мы рассмотрим технику COUNT на примере атрибута «бесплатные минуты». В таблице z приводятся расчеты частичных полезностей.

Таблица 6. Алгоритм вычисления частичных полезностей методом COUNT

Минуты

Выборы

Полезности

100

98

0,05

200

177

0,09

300

212

0,10

400

311

0,15

500

380

0,18

600

434

0,21

700

460

0,22

Всего

2072

1

Таблица 6 наглядно демонстрирует, что полезность продукта будет возрастать с увеличением числа минут. Ниже представлены полезности по всем атрибутам и уровням.

Таблица 7. Частичные полезности методом COUNT

Атрибуты

Частичные полезности

Минуты

Гигабайты

Цена

Оператор

Калькулятор

Счет

Сим-карты

1 = 0,05

1 = 0,06

150 = 0,32

1 = 0,31

Есть = 0,51

Общий = 0,51

1= 0,31

2 = 0,09

2 = 0,07

300 = 0,26

2 = 0,25

Нет = 0,49

Раздел. = 0,49

2 = 0,33

3 = 0,1

3 = 0,07

450 = 0,18

3 = 0,23

3 = 0,36

4 = 0,15

4 = 0,09

600 = 0,13

4 = 0,21

5 = 0,18

5 = 0,1

750 = 0,11

6 = 0,21

6 = 0,1

7 = 0,22

7 = 0,1

8 =0,12

9 =0,14

10 =0,15

Пользуясь таблицей 7, мы можем посчитать общие полезности и важности атрибутов. Формулы расчета те же самые, что и для conjoint regular. Тем не менее, в данном разделе эти расчеты производиться не будут, мы ограничимся гипотезами о связях между общей полезностью товара и уровнями. Такие гипотезы могут быть полезны, когда для рынка сотовой связи будет строиться модель линейной и логистической регрессии. Запишем наши предположения в форме списка.

1. Чем больше гигабайт включено в тариф, тем больше общая полезность тарифа для потребителя.

2. Чем выше цена пакета, тем ниже общая полезность тарифа

3. Бренды располагаются в следующем порядке по степени предпочтительности: Оператор 1 > 2 > 3 > 4.

4. Наличие в пакете калькулятора и общего счета увеличивает общую полезность, но незначительно

5. Чем больше в пакете сим-карт, тем полезнее тариф

Наши гипотезы, основанные на реальных наблюдениях, довольно наглядно описывают вполне рациональные и эгоистичные потребительские желания получать больше за меньшие деньги. Кроме того, мы замечаем важный аспект, который говорит о том, что в среднем по выборке наличие дополнительных пакетных бонусов в виде калькулятора и общего счета почти не меняют полезность тарифа.

Перейдем к проверке наших гипотез с помощью более сложных моделей. В первую очередь, мы попробуем оценить данные с помощью модели множественной линейной регрессии. Множественная линейная регрессия требует, чтобы предикторы были интервальными переменными. Только так результаты модели будут интерпретируемы. Напротив, результаты, которые мы получим, если будем проводить линейную регрессию на номинальных переменных, окажутся не подлежащими интерпретации. Например, мы не можем сказать, что с увеличением оператора на 1, вероятность выбора увеличится на bоператор, так же как мы не можем сказать, что при увеличении исповедуемой религии зависимая переменная возрастет, потому что христианин не является большим или меньшим, чем еврей.

В процессе описания переменных было установлено что некоторые из наших предикторов не могут быть напрямую включены в регрессионное уравнение, поскольку они номинальны. Тем не менее, то, что некоторые переменные номинальны, не означает, что мы вообще не можем построить линейную регрессионную модель для наших данных. Мы можем сделать это, но нам потребуется провести несколько операций по преобразованию наших данных. «Причесанные данные» позволят нам провести еще один вид регрессионного анализа: множественная линейная регрессия с фиктивными переменными.

5.3 Расчет частичных полезностей с помощью модели множественной регрессии с фиктивными переменными

Перед проведением регрессионного анализа с фиктивными переменными была проведена процедура перекодировки переменных. Оператор и Количество сим-карт в дихотомические переменные. Принцип перекодировки переменной Оператор уже был описан нами в таблице z (ссылка на таблицу z из литобзора). Перекодировка переменной «Количество сим-карт» была выполнена по такому же принципу».

После перекодировки мы запустили модель множественной линейной регрессии в SPSS и получили значения коэффициентов Бета. Результаты и статистики представлены в таблице 8.

Таблица 8. Частичные полезности модели регрессии с фиктивными переменными

R квадрат

0,109

F-статистика

127,231

Значимость = 0,00

B

Стандартная ошибка

Значимость

(Константа)

,062

,022

,006

Количество минут звонков

,043

,002

,000

Количество гигабайт мобильного интернета

,020

,001

,000

Стоимость в месяц

-,055

,003

,000

Калькулятор тарифов

-0,011

,007

,140

Принцип оплаты

-0,006

,007

,425

Оператор 1

,086

,011

,000

Оператор 2

,033

,010

,001

Оператор 3

,018

,011

,079

2 сим-карты

,017

,009

,058

3-сим-карты

,032

,009

,000

Статистика Фишера говорит нам о том, что модель может считаться статистически адекватной (P(value) = 0,05 > 0,00). Адекватность модели безусловно, говорит в пользу ее качества. Тем не менее, R-квадрат модели после корректировки составляет всего 0,109. Это значение намного меньше 1, и говорит нам о том, что наша модель описывает всего 11% общей дисперсии. Такой низкий показатель отрицательно сказывается на нашем мнении относительно качества модели.

Причина такого низкого показателя регрессии может быть в несоблюдении ограничения нормальности распределения остатков. Мы предполагаем, что регрессия не может объяснить оставшиеся 90% дисперсии, поскольку остатки имеют форму отличную от колокольчиковой. На рисунке справа продемонстрирован результат проверки на нормальность распределения остатков. Рисунок дает абсолютную уверенность в том, что остатки распределены ненормально, распределение данных может быть описано как двугорбое. Это значит, что внутри нашей базы есть две подсовокупности респондентов. Если бы мы строили регрессию с фиктивными переменными для любого другого класса методов, кроме совместного анализа, то мы бы разделили выборку и продолжили исследование. Однако conjoint анализ накладывает на нас обязательное правило ортогональности плана, которое будет нарушено, если мы уберем из плана несколько сторк.

Несмотря на то, что показатель R-квадрат оказался низким, а регрессия не прошла ограничения, мы все равно записали значения коэффициентов Бета в виде полезностей и атрибутов, чтобы в будущем иметь возможность сравнить результаты линейной регрессии с результатами логистической и логистической оцененной методом иерархического Байеса. Когда мы вносили значения полезностей в таблицу z, мы отдельно обратили внимание на несколько фиктивных переменных. «Наличие калькулятора тарифов» - это дихотомическая переменная (1 - Нет калькулятора, 0 - Есть калькулятор). Так же, как и «Принцип оплаты» (0 - Общий счет, 1 - Раздельный счет). Значимость коэффициентов этих переменных больше значительно больше 0,05, поэтому мы отвергаем гипотезу о том, что между ними существует значимая разница. Следовательно, полезность уровней для этих переменных будет одинаковой. Все остальные коэффициенты значимы на уровне доверительной вероятности 90%, поэтому мы вносим различия в таблицу.

Таблица 9. Частичные полезности, полученные методом множественной регрессии

Атрибуты

Частичные полезности

Минуты

Гигабайты

Цена

Оператор

Калькулятор

Счет

Сим-карты

1 = 0,043

1 = 0,02

150 = -0,055

1 = 0,086

Нет = 0

Разд.= 0

0

2 = 0,086

2 = 0,04

300 = -0,11

2 = 0,033

Есть = 0

Общий = 0

0,017

3 = 0,129

3 = 0,06

450 = -0,17

3 = 0,018

0,032

4 = 0,172

4 = 0,08

600 = -0,22

4 = 0

5 = 0,215

5 = 0,1

750 = -0,275

6 = 0,258

6 = 0,12

7 = 0,301

7 = 0,14

8 = 0,16

9 = 0,18

10 = 0,2

Описывая таблицу 8, в которой зафиксированы полезности подсчитанные методом COUNT, мы выдвинули ряд исследовательских гипотез и записали их под таблицей. Мы поставили задачу проверить эти гипотезы более сложными методами: множественной линейной регрессией с фиктивными переменными и логистической регрессией. Получив результаты регрессии с фиктивными переменными, мы можем говорить, что все наши гипотезы подтвердились. Более того, значения полезностей в таблицах по некоторым атрибутам довольно схожи, что еще раз говорит о том, что метод COUNT можно использовать в целях сокращения времени и упрощения подсчетов на больших выборках. Конечно, он не обладает предсказательной силой регрессии, но используя его, мы не сильно потеряем в качестве композиционного метода и сделаем правильные итоговые выводы по общим полезностям и важностям атрибутов.

5.4 Расчет частичных полезностей по всей выборке с использование модели логистической регрессии

Один из важнейших критериев адекватности композиционного подхода - это качество модели, которая описывает данные. В случае с моделью линейной регрессии мы столкнулись с тем, что модель не прошла ограничения и обладала крайне низким качеством, поэтому мы предполагаем, что наши данные будут лучше описываться нелинейной функцией. Чтобы проверить предположение, мы проведем анализ с помощью бинарной логистической регрессии в SPSS.

Таблица 10. Частичные полезности, полученные методом логистической регрессии

Статистика Вальда

3185,596

Значимость = 0,000

choice

Процент корректных

,00

1,00

choice

,00

8107

181

97,8

1,00

1844

228

11,0

Общий %

80,5

Значимость

Бета

Минуты

,000

100 минут

,000

,140

200 минут

,000

,269

300 минут

,000

,348

400 минут

,000

,527

500 минут

,001

,751

600 минут

,167

,890

700 минут

1

Гигабайты

,000

1 GB

,000

,281

2 GB

,000

,317

3 GB

,000

,377

4 GB

,000

,460

5 GB

,000

,549

6 GB

,000

,559

7 GB

,000

,603

8 GB

,002

,718

9 GB

,237

,884

10 GB

1

Цена

150

,000

4,209

300

,000

3,153

450

,000

1,805

600

,049

1,215

750

1

Оператор

Оператор 1

,000

1,815

Оператор 2

,001

1,301

Оператор 3

,066

1,153

Оператор 4

1

Калькулятор

Есть калькулятор

,077

1,098

Нет

1

Счет

Есть общий счет

,466

1,039

Раздельный счет

1

Количество сим-карт

1

,000

,790

2

,127

,908

3

,001

1

Константа

,325

В таблице z записаны показатели качества модели, коэффициенты логистической регрессии и их значимость. Качество логистической регрессии описывается в первых 5-ти строчках таблицы z посредством статистики Вальда и процентом предсказанных случаев. Статистика Вальда демонстрирует адекватность модели (p value = 0,05 > 0,00). Общий процент предсказаний составил 80%, следовательно, логистическая регрессия предсказывает значение Y в 80% случаев. Для «не выбора» логит-анализ предсказывает значение Y в 97% случаев, а для выбора - в 11%.

5.5 Расчет частичных полезностей методом иерархического Байеса

Для расчета полезностей с помощью байесовского моделирования будет использоваться R и интерфейсом R Studio. R Studio включает в себя набор базовых функций, но не ограничивает исследователей и позволяет им использовать дополнения, собранные сторонними разработчиками. В числе дополнений для проведения байесовского анализа мы установили пакет Bayesm. Пакет представляет из себя набор функций для иерархического байесовского анализа. Из списка функций мы воспользовались возможностями функции RhierMnlRwMixture для решения задачи подсчета индивидуальных полезностей.

Работа с подавляющим большинством функций пакета Bayesm включает в себя 4 условных этапа. Первый этап можно условно назвать этапом подготовки данных для запуска анализа. Подготовка данных для bayesm выносится в отдельный этап, поскольку все функции пакета bayesm в высшей степени «капризны» по отношению ко входным данным. Работу со всеми функциями пакета bayesm, и в том числе, с функцией RhierMnlRwMixture исследователю-практику следует начинать с процедуры преобразования данных. В результате преобразований исследователь должен получить данные в структуре списка. Создание такой структуры в R требует от исследователя продвинутого знания языка R, что редко встречается среди исследователей-маркетологов. Тем не менее, структура списка - единственная структура, которую понимает bayesm. Движимые соображениями популяризовать байесовскую статистику в маркетинге, мы написали подробную инструкцию по созданию правильного списка из данных для Choice Based Conjoint. Инструкцию можно найти в Приложении 1.

Завершив подготовку данных, мы можем переходить к установке параметров для MCMC алгоритма, встроенного в функцию. Среди...


Подобные документы

  • Теория потребностей, изучение потребителя в маркетинге. Модели покупательского поведения, процесс принятия решения о покупке, потребительская удовлетворенность. Психография, метод исследования потребителей в маркетинге. Измерение стиля жизни потребителей.

    курсовая работа [155,8 K], добавлен 09.04.2009

  • Теоретические основы исследования потребителей. Процедура маркетинговых исследований. Статистический анализ современного рынка недвижимости республики Хакасия. Проведение маркетингового исследования предпочтений потребителей и анализ полученных данных.

    курсовая работа [192,6 K], добавлен 08.10.2010

  • Понятие "лояльности покупателя" в современном маркетинге. Степень удовлетворенности потребителей представленными марками молочной продукции города. Выявление потребительских предпочтений в сегменте молоко, кефир и йогурты. Анализ результатов исследования.

    курсовая работа [2,0 M], добавлен 10.06.2012

  • Опрос как метод сбора первичной информации, особенности социально-психологического взаимодействия исследователя и опрашиваемого. Этапы подготовки и проведения анкетирования. Достоинства метода фокус-групп, получение информации о пожеланиях потребителей.

    презентация [689,7 K], добавлен 28.02.2017

  • Теоретические основы исследования потребителей. Анализ современного рынка парфюмерии и косметики в России. Проведение маркетингового исследования предпочтений потребителей и анализ полученных данных. Выводы по результатам маркетингового исследования.

    курсовая работа [128,3 K], добавлен 08.10.2010

  • Теоретические аспекты маркетингового исследования предпочтения потребителей. Концепции маркетинга и их сущность. Цели, задачи и основные понятия маркетинговых исследований. Маркетинговое исследование предпочтений потребителей сети магазинов "Магнит".

    курсовая работа [2,4 M], добавлен 17.04.2009

  • Этапы проведения маркетингового исследования, их сущность и порядок сбора информации. Разнообразие методологий исследования, достоинства и недостатки применяемых методов. Опрос как метод сбора первичной маркетинговой информации, его виды и направления.

    курсовая работа [204,3 K], добавлен 10.01.2015

  • Взаимосвязь понятий "обмен", "сделка" и "рынок" в маркетинге. Роль покупателя в развитии рынка, суть маркетинга. Вопросы, направленные на изучение предпочтений потребителей. Определение потенциальной емкости регионального рынка. Сравнение двух марок чая.

    контрольная работа [19,8 K], добавлен 08.10.2010

  • Теоретические аспекты маркетинговых исследований. Характеристика основных методов проведения исследований и сбора первичной информации: анкетирование, фокус-группа. Определение природы потребности, выявление предпочтений потребителей по торговым маркам.

    курсовая работа [156,8 K], добавлен 02.06.2011

  • Методы рекламного воздействия на потребителей и типы потребительской рекламы. Продвижение товара на рынок. Методы оценки текущего спроса в маркетинге: метод оценки общей емкости рынка, метод оценки территориальной емкости рынка. Жизненный цикл товара.

    контрольная работа [29,1 K], добавлен 27.01.2010

  • Восприятие как оценка поведения потребителей, его структура и основные элементы, разновидности и отличительные особенности. Обзор российского рынка майонеза. Анализ предпочтений потребителей. Оценка восприятия, степени удобства упаковок лидирующих марок.

    курсовая работа [790,8 K], добавлен 18.12.2010

  • Виды и особенности рекламы, ее значение в маркетинге предприятия малого бизнеса. Методы исследования эффективности рекламы. Анализ системы маркетинга и используемых средств рекламы, разработка плана проведения рекламной кампании по продвижению услуг.

    дипломная работа [297,8 K], добавлен 16.12.2010

  • Изучение процессов поведения потребителей и анализ их мнений и предпочтений относительно продукции предприятия. Организационно-экономическая характеристика магазина "Экономная семья №9". Предложения об улучшении проблемной ситуации для данной фирмы.

    дипломная работа [844,8 K], добавлен 25.04.2013

  • Построение иерархической структуры потребностей. Изучение системы предпочтений потребителей относительно очередности реализации отдельных потребностей, требований к ассортименту и качеству товаров и услуг. Оценка потребительских предпочтений на ООО "Дан".

    дипломная работа [2,0 M], добавлен 23.12.2013

  • Особенности базового анализа в маркетинге. Пример проведения частотного анализа потребителей марки "Nike". Применение вариационного ряда, маркетинговое исследование потребителей ТС "Rainford Electronics". Специфика опроса (потребительской экспертизы).

    контрольная работа [119,2 K], добавлен 02.11.2009

  • Определение нужд потребителя. Оценка качества продукта. Корректирование работы компании по улучшению производимой продукции. Исследование дерева потребительских ожиданий. Рассмотрение основных возможностей методов SERVQUAL, CSI, Mystery Shopping.

    реферат [216,8 K], добавлен 04.02.2016

  • Фокус-группа — метод, применяемый в качественных маркетинговых исследованиях. Основы проведения глубинного интервью в группе. Обмен мнениями по определенному сценарию (гайду), согласованному с заказчиком. Особенности и специфика проведения фокус-группы.

    доклад [117,2 K], добавлен 30.11.2010

  • Анализ научно-методической литературы. Процесс маркетинговых исследований в туризме. Ценообразование в маркетинге и туризме. Реклама в маркетинге и туризме. Анкетирование. Сбор необходимой информации. Анализ проводимого анкетирования.

    курсовая работа [89,5 K], добавлен 05.05.2006

  • Роль продавца в продаже товара. Манипуляция поведением потребителя. Влияние внешности продавца на выбор покупателя. Методики исследования психологического влияния в продажах. Нейромаркетинг – современный метод исследования потребительских предпочтений.

    курсовая работа [82,4 K], добавлен 20.12.2014

  • Диалектика потребительских отношений. Лояльность как предпочтение потребителей. Анализ отношения потребителей к ОАО "Седьмой континент". Характеристика деятельности и разработка PR-кампании по формированию положительного имиджа розничной торговой сети.

    курсовая работа [884,3 K], добавлен 13.06.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.