Исследование возможностей статистических пакетов для дисперсионного анализа данных

Ознакомление со спецификой проведения дисперсионного анализа с помощью ИС Statistica и ПК SPSS. Примеры построения таблиц в рассматриваемых автоматизированных информационных системах. Двухфакторное и однофакторное компьютерное исследование материала.

Рубрика Программирование, компьютеры и кибернетика
Вид контрольная работа
Язык русский
Дата добавления 30.04.2014
Размер файла 1,4 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования Республики Беларусь

Витебский государственный технологический университет

Кафедра информатики

Контрольная работа

по предмету: Компьютерные информационные технологии

на тему: Исследование возможностей статистических пакетов для дисперсионного анализа данных

Витебск, 2007 год

Введение

Цель анализа различий - выявление групп респондентов, статистически значимо различающихся между собой. Все статистические процедуры, позволяющие выявить такие различия (t-тесты и дисперсионный анализ), сравнивают респондентов на основании средних значений переменных.

В практике маркетинговых и статистических исследований достаточно часто встречаются ситуации, когда в ходе предварительного анализа (на основании опыта исследователя или статистического анализа) появляется гипотеза о разделении всей выборочной совокупности на определенные группы на основании одного или нескольких признаков. Линейное распределение может показывать, что данные группы респондентов действительно различаются, однако, визуального различия между категориями недостаточно для того, чтобы с уверенностью констатировать наличие статистически значимого различия. На установление статистической значимости различий между целевыми группами респондентов и направлены процедуры, объединенные под названием анализ различий.

Существует два основных метода определения различий между группами: t-тесты и дисперсионный анализ. Первый метод прост в использовании, однако, в связи с ограничением на количество тестируемых групп, t-тесты не могут применяться для решения всех задач, возникающих при проведении анализа. Для преодоления данного ограничения используется дисперсионный анализ, который является универсальной методикой для определения статистически значимых различий между любым числом групп респондентов.

В работе я проведу дисперсионный анализ с помощью двух программ: StatSoft Statistica и SPSS (Statistical Package for the Social Science).

Statistica - это современный пакет статистического анализа, в котором реализованы все новейшие компьютерные и математические методы анализа данных. Программа предназначена для всех отраслей промышленности (бизнес, наука, обучение). В ней реализовано все возможные функции для статистической обработки данных плюс к этому: возможность построения графиков, базы данных и т. д.

В программу встроен STATISTICA Visual Basic что добавляет еще около 10000 новых функций. Синтаксис этого Basic'а полностью совместим с Microsoft Visual Basic.

Программные продукты SPSS - это инструменты, обеспечивающие работу на всех этапах аналитического процесса и позволяющие получать результаты, которые невозможно получить при помощи электронных таблиц и систем управлениями базами данных.

При помощи мощных статистических процедур SPSS можно быстро получать информацию для принятия решений, наглядно представлять результаты в виде высококачественных таблиц и диаграмм, а также распространять результаты, в том числе и в Интернете. Все это дает возможность, находя ключевые факты, взаимосвязи и тенденции, своевременно принимать оптимальные решения.

1. Одномерный дисперсионный анализ

Одномерный дисперсионный анализ исследует влияние одной или нескольких независимых переменных на одну зависимую. Одномерный дисперсионный анализ может быть однофакторным (one-way ANOVA) или многофакторным (n-way Anova):

- в первом случае есть только одна независимая переменная;

- во втором - несколько.

Однофакторный одномерный дисперсионный анализ можно проводить двумя способами: при помощи специальной процедуры Оne-way ANOVA (меню Analyze / Compare Means / Оne-way ANOVA) или посредством обобщенной линейной модели (меню Analyze / General Linear Model / Univariate). Второй прием является более универсальным и обладает полным объемом функциональности первого, поэтому в дальнейшем я буду использовать его.

Необходимо отметить, что для проведения одномерного дисперсионного анализа на практике существует одно весьма существенное ограничение. При увеличении количества факторов (т. е., независимых переменных) в модели сложность интерпретации результатов расчета возрастает многократно.

Так, однофакторный анализ является наиболее простым. Его результаты понятны сразу при взгляде на итоговую таблицу.

Двухфакторный анализ намного сложнее в интерпретации - чтобы понять его результаты приходится много времени потратить, разбираясь в таблицах и графиках.

А (четырех- и мульти-) факторные модели в большинстве своем могут успешно интерпретироваться только квалифицированными исследователями.

Таким образом, для практических целей лучше воздержаться от исследования большого числа взаимодействий между факторами и ограничиться несколькими наиболее важными.

В этом разделе я рассмотрю одно- и двухфакторные модели одномерного дисперсионного анализа.

Табл. 1. - Исходные данные:

Табл. 2:

2. Однофакторный одномерный дисперсионный анализ

Исследуется покупательское поведение потребителей диетических хлебцев. Респонденты разделяются на целевые группы в зависимости от их возраста. Одним из вопросов анкеты является: «Сколько пачек диетических хлебцев в среднем Вы покупаете за одно посещение магазина?» с вариантами ответа: 1 пачка, 2 пачки, 3 пачки, …, 10 пачек, больше 10 пачек. Требуется выяснить, насколько значимо различается кратность покупок в различных возрастных группах респондентов.

Диалоговое окно одномерного дисперсионного анализа запускается при помощи меню Analyze / General Linear Model / Univariate. Из левого списка всех доступных переменных в поле для зависимой переменной Dependent Variable я переношу «Кратность покупок», а в область для независимых переменных Fixed Factor(s) - «Возраст». (Т. к., в этой задаче переменна «Возраст» содержит все возможные группы респондентов, я поместила ее в область фиксированных факторов).

Для того, чтобы определить какие именно группы отличаются от других, существуют дополнительные статистические тесты, задаваемые при помощи кнопки Post Hoc. В область Post Hoc Tests я переношу фактор «Возраст», который необходимо подвергнуть тестированию на предмет установления различий между его группами.

Теперь надо установить равенство / неравенство дисперсий.

Т. к., я не знаю, равны ли дисперсии, я вывожу тесты для равных и неравных дисперсий, чтобы сократить количество итераций при проведении дисперсионного анализа. SPSS предлагает много различных дополнительных тестов, помогающих определить различия между группами исследуемых переменных. Однако использовать их все нецелесообразно. Поэтому я ограничусь наиболее популярным и универсальным тестом Scheffe для равных дисперсий и тестом Tamhane's T2 - для неравных дисперсий (рис. 1).

Рис. 1. - Диалоговое окно Univariate: Post Multiple Comparisons for Observed Means:

Рис. 2. - Диалоговое окно Univariate: Options:

Теперь в меню Univariate: Options выбираю тест Levene на равенство дисперсий (параметр Homogeneity tests) (рис. 2).

Т. к., переменная «Возраст» имеет больше двух категорий (4), специально выводить для нее средние значения (область Display Means for) не имеет смысла (они будут выведены в таблице Homogenous Subsets).

В окне SPSS Viewer выводятся результаты расчетов:

Рис. 3:

Рис. 4:

Рис. 5:

Первой практически значимой таблицей является результат теста на равенство дисперсий зависимой и независимой переменной Levene's Test of Error Variances. В столбце Sig. данной таблице содержится единственное интересующее меня значение - это статистическая значимость тестовой статистики F (Sig. = 0,501).

T. к., значение в данном столбце показывает не значимость F - значит, дисперсии равны, и в дальнейшем я буду анализировать результаты расчета теста Scheffe (предполагающего равенство дисперсий).

Следующая таблица - это Tests of Between-Subjects Effects. Данная таблица показывает наличие / отсутствие значимых различий между категориями исследуемых переменных. Первое, на что следует обратить внимание - это величина, отражающая долю совокупной дисперсии в зависимой переменной, описываемой статистической моделью. Другими словами, это та часть вариации зависимой переменной, которую можно объяснить на основании независимой переменной. Естественно. что чем меньше независимых переменных, тем меньше величина, и наоборот.

В этой задаче величина R2 = 0,218, но для дисперсионного анализа значения R2 можно просто проигнорировать, т. к., они не важны для практического использования полученной модели.

Второе. на что следует обратить внимание при интерпретации таблицы Tests of Between-Subjects Effects, - это значимость различия между группами независимой переменной. Этот вывод следует из значения на пересечении строки, содержащей соответствующую независимую переменную, и столбца Sig.. В этой задаче имеет место статистически высоко значимое различие между различными возрастными группами респондентов по кратности покупок диетических хлебцев (значимость F-статистики у переменной «Возраст» < 0,001).

После того, как я установила наличие статистически значимого различия между возрастными группами респондентов на основании кратности покупок диетических хлебцев, необходимо определить, какие из четырех имеющихся возрастных групп отличаются от остальных и каким образом (в большую или меньшую сторону).

Это делается с помощью таблицы Multiple Comparisons. Т. к., я выяснила, что дисперсии оказались равными, в этой таблице я буду рассматривать только ту ее часть, в которой приведены расчеты по методу Scheffe. (Тест Tamhane я бы применяла, только если бы дисперсии были неравны). Итак, в первой части таблицы (Scheffe) представлено сравнение различий между каждой из четырех возрастных категорий с остальными категориями. На основании этих данных я определяю те группы, которые значимо отличаются от других.

Так, из столбца Sig. (статистическая значимость) видно, что только группа респондентов старше 55 лет статистически значимо отличается от всех стальных. Остальные целевые группы не отличаются друг от друга. При этом из столбца Mean Difference можно видеть, насколько отличается среднее значение той или иной группы от среднего значения других групп (звездочками отмечены значимые различия при 95%-ном доверительном уровне). Наконец, в последней таблице Homogeneous Subsets представлена однозначная картина различий между группами независимой переменной. Здесь все возрастные группы разделены на 2 категории на основании различий в кратности покупок.

В первую категорию входит целевая группа респондентов старше 55 лет, во вторую - все остальные возрастные группы (т. е., респонденты младше 55 лет).

Также из рассматриваемой таблицы можно сделать вывод о направлении различия между выделенными категориями.

Так, в этой задаче я могу заключить, что респонденты старше 55 лет покупают диетические хлебцы в меньших объемах, чем респонденты младше этого возраста.

В точности определить размер или величину различия можно, только если в качестве зависимой переменной выступает интервальная переменная.

Т. к., переменная «Кратность покупок» относится к порядковой шкале, точный вывод о величине различия сделать нельзя.

3. Двухфакторный одномерный дисперсионный анализ

Исходные данные остаются такими же, как и в предыдущем примере, однако теперь я буду устанавливать различие в кратности покупок диетических хлебцев возрастными и половыми группами (переменная «Пол»). Для этого вновь открываю диалоговое окно Univariate и добавляю в область фиксированных факторов переменную «Пол».

В диалоговом окне Options я добавляю переменную «Пол», а так же ее взаимодействие с переменной «Возраст» в область Display Means for, что позволит вывести средние значения по каждой группе мужчин и женщин при определении направления различия между ними. После этого запускаю процедуру дисперсионного анализа на выполнение (рис. 6).

Рис. 6. - Диалоговое окно Univariate: Options:

В окне SPSS Viewer выведены результаты расчетов:

Табл. 3:

Табл. 4:

Табл. 5:

Табл. 6:

Табл. 7:

Результаты расчетов отличаются от результатов предыдущего примера. Во-первых, тест Levene теперь является значимым (Sig. = 0,397), из чего следует вывод о неравенстве дисперсий. Во-вторых, в таблице Tests of Between-Subjects Effects появились результаты расчета значимости F-статистики для переменной «Пол», а также для взаимодействия «Возраст» и «Пол». Как видно, мужчины и женщины не имеют статистически значимых различий по кратности покупок диетических хлебцев (Sig. = 0,046). То же относится и к взаимодействию «Возраст» и «Пол» (Sig. = 0,349). А переменная «Возраст» сохранила свое значимое влияние на зависимую переменную (Sig. = 0,000). После таблицы Tests of Between-Subjects Effects следую расчеты средних значений для переменной «Пол» и для взаимодействия «Возраст» и «Пол».

В этом примере ни переменная «Пол», ни ее взаимодействие с переменной «Возраст» не являются статистически значимыми, поэтому данные таблицы бесполезны.

Однако, если бы переменная «Пол» была бы значима (т. е., различие между мужчинами и женщинами существовало), на основании первой таблицы можно бы было сделать заключение о том, какая именно половая группа покупает больше диетических хлебцев.

Завершают вывод результатов двухфакторного анализа таблицы с расчетами апостериорных тестов.

В этом примере они практически такие же, как в предыдущем примере, поскольку переменная «Возраст» сохранила свою значимость.

Однако при интерпретации таблицы Multiple Comparisons следует помнить о неравенстве дисперсий. Поэтому значимость различий между отдельными возрастными группами надо устанавливать на основании второй части таблицы Tamhane.

4. Однофакторный одномерный дисперсионный анализ в Statistica

Для того, чтобы решить ту же задачу, в меню Statistics я выбираю модуль ANOVA и в появившемся окне General ANOVA/MANOVA нажимаю Variables и определяю зависимые и независимые переменные (рис. 7).

Рис. 7. - Диалоговое окно Select dependent variables and a categorical predictor:

На появившемся экране ANOVA Results нажимаю All effects:

Рис. 8:

Полученные данные позволяют осуществить оценку степени влияния фактора «Возраст» на фактор «Кратность покупок»:

Рис. 9:

Рис. 10:

Т. к., значение р = 0,000303, т. е., р < 0,001 в этой задаче имеет место статистически высоко значимое различие между различными возрастными группами респондентов по кратности покупок диетических хлебцев.

Чтобы проанализировать зависимость между факторами наглядно, я строю график с помощью меню Graphs.

Получаю графики на которых отображено среднее значение кратности покупок, ошибка и стандартное отклонение.

Рис. 11:

Но на графике четко видно, что респонденты в возрасте старше 55 лет делают покупки значительно реже, чем в возрасте до 55 лет, что полностью подтверждает анализ, проведенный в «SPSS» и «Statistica».

5. Двухфакторный одномерный дисперсионный анализ в «Statistica»

В меню Statistics я выбираю модуль ANOVA и в появившемся окне General ANOVA/MANOVA: Factoral ANOVA нажимаю Variables и определяю зависимые и независимые переменные (рис.12, рис. 13).

Рис. 12. - Диалоговое окно General ANOVA/MANOVA:

Рис. 13. - Диалоговое окно Select dependent variables and a categorical predictor:

Анализ влияния двух факторов («Возраст» и «Пол») на кратность покупок дает результаты, полностью соответствующие проведенному анализу в SPSS. Переменная «Возраст» сохранила свою значимость (р = 0,000224), а переменная «Пол», и ее взаимодействие с переменной «Возраст» не являются статистически значимыми (превышают порог значимости р = 0,001), т. е., не оказывают значимого влияния на переменную «Кратность покупок».

Рис. 14:

Заключение

Проведя однофакторный и двухфакторный одномерный дисперсионный анализ с помощью двух программ: StatSoft Statistica и SPSS (Statistical Package for the Social Science), я установила, что респонденты старше 55 лет, в независимости от пола, покупают меньшее количество диетических хлебцев, чем остальные опрошенные группы. Причин этого может быть несколько: statistica автоматизированный информационный

- возможно, эти респонденты уделяют меньшее внимание своему здоровью и полезному рациону питания;

- возможно, такой продукт как диетические хлебцы не привычен для людей старшего возраста;

- цены на диетические хлебцы более высокие, чем на другие хлебобулочные изделия.

Применение StatSoft Statistica и SPSS (Statistical Package for the Social Science), я нахожу эффективным.

Размещено на Allbest.ru

...

Подобные документы

  • Ознакомление с основами программного пакета Statistica. Описание статистики и графики. Группировка данных, корреляции, методы множественной регрессии. Рассмотрение набора непараметрических статистик. Реализация дисперсионного и ковариационного анализа.

    контрольная работа [544,5 K], добавлен 09.06.2015

  • Общее описание программы Statistica. Архитектура и интерфейс системы. Регрессионный анализ в Statistica. Решение задачи регрессионного анализа с помощью пакета анализа данных табличного процессора MS Excel. Многомерный дисперсионный анализ в SPSS.

    курсовая работа [2,4 M], добавлен 22.01.2013

  • Создание автоматизированной системы по сбору и анализу статистических данных сайта. Принципы сбора статистических данных. Исследование информационных потоков. Обзор современных СУБД и языков программирования. Логическая и физическая модель базы данных.

    дипломная работа [3,0 M], добавлен 08.07.2012

  • Жизненный цикл автоматизированных информационных систем. Основы методологии проектирования автоматизированных систем на основе CASE-технологий. Фаза анализа и планирования, построения и внедрения автоматизированной системы. Каскадная и спиральная модель.

    курсовая работа [1,1 M], добавлен 20.11.2010

  • Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.

    курсовая работа [706,3 K], добавлен 07.08.2013

  • Понятие информационной системы и баз данных. Критерии классификации автоматизированных информационных систем. Примеры простых и сложных запросов. Характеристика и анализ возможностей справочно-правовых систем "Кодекс", "Консультант Плюс", "Гарант".

    курсовая работа [40,3 K], добавлен 16.05.2017

  • Исследование возможности автоматизации забора и анализа статистических данных из различных систем. Разработка удобного и масштабируемого программного продукта для автоматизации построения маркетинговых отчетов. Защита внутрикорпоративной информации.

    дипломная работа [3,0 M], добавлен 28.01.2014

  • Изучение возможностей среды статистических вычислений R для классификации многомерных неоднородных ассиметричных данных с помощью Expectation-Maximization (EM) алгоритмов. Использование R для анализа модели смеси вероятностных распределений (FMM).

    реферат [1,8 M], добавлен 09.12.2014

  • Общедоступные электронные архивы данных социологических опросов: характеристика основных разделов и география пользователей. Сущность методов социологических исследований, описание необходимых процедур и их реализация в программном пакете SPSS 17.0.

    курс лекций [9,0 M], добавлен 05.11.2013

  • Информационные и автоматизированные системы управления технологическими процессами на промышленных предприятиях. Базы данных в автоматизированных системах управления. Системы планирования ресурсов предприятия, сбора и аналитической обработки данных.

    контрольная работа [486,7 K], добавлен 29.10.2013

  • Анализ интеллектуально-информационных ресурсов как движущей силы современного общества. Стратегии получения знаний. Характеристика преимуществ статистических пакетов и нейронных сетей. Архитектура инструментария для интеллектуального анализа MineSet.

    контрольная работа [35,6 K], добавлен 14.09.2010

  • Функции Microsoft Excel - встроенные инструменты, которые применяются в формулах. Их виды и основы работы с ними. Организация обработки табличных данных при помощи статистических функций. Примеры решения различных задач при помощи электронных таблиц.

    курсовая работа [958,6 K], добавлен 21.07.2011

  • Анализ моделей и средств построения игровой компьютерной среды предметной области. Разработка алгоритмов построения игровой компьютерной среды. Отладка и экспериментальное тестирование компьютерной игры "Представление знаний в информационных системах".

    дипломная работа [2,9 M], добавлен 12.08.2017

  • Правовое регулирование защиты персональных данных. Общий принцип построения соответствующей системы. Разработка основных положений по охране личных документов. Подбор требований по обеспечению безопасности персональных данных в информационных системах.

    дипломная работа [1,3 M], добавлен 01.07.2011

  • Понятие информации, автоматизированных информационных систем и банка данных. Общая характеристика описательной модели предметной области, концептуальной модели и реляционной модели данных. Анализ принципов построения и этапы проектирования базы данных.

    курсовая работа [1,7 M], добавлен 18.01.2012

  • Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.

    курсовая работа [3,2 M], добавлен 19.05.2011

  • Разработка подсистем анализа веб-сайта с помощью Microsoft Access и Olap-технологий. Теоретические аспекты разработки подсистемы анализа данных в информационной системе музыкального портала. Olap-технологии в подсистеме анализа объекта исследования.

    курсовая работа [864,8 K], добавлен 06.11.2009

  • Генерирование выборок, имеющих нормальный закон распределения, и определение для них математического ожидания и дисперсии. Нахождение значения критерия Фишера, сравнивнение его с критическим. Проведение однофакторного дисперсионного анализа выборок.

    лабораторная работа [291,0 K], добавлен 19.02.2014

  • Программное обеспечение информационных технологий. Создание перекрестного запроса, свободных таблиц и диаграмм с помощью Мастера и Конструктора, используя в качестве основы предварительно созданный запрос из данных таблиц базы данных в СУБД ACCESS.

    лабораторная работа [164,7 K], добавлен 13.06.2014

  • Создание web-сайта для сбора статистических данных, прогнозирования возможностей системы общего образования и анализа демографического состояния региона в динамике. Проектирование базы данных, разработка компонентов, алгоритмов и программного обеспечения.

    дипломная работа [3,1 M], добавлен 15.04.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.