Решение задач интеллектуального анализа данных: прогнозирование временных рядов средствами интегрированной системы Statistica
Изучение и характеристика основных методов и алгоритмов прогнозирования временных рядов на примере решения конкретной задачи интеллектуального анализа данных. Ознакомление с навыками работы с модулями интегрированной статистической системы Statistica.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | лабораторная работа |
Язык | русский |
Дата добавления | 29.03.2022 |
Размер файла | 1019,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
Кафедра вычислительной техники
Лабораторная работа по дисциплине: «Компьютерные технологии анализа и обработки данных»
На тему: «Решение задач интеллектуального анализа данных (ИАД): прогнозирование временных рядов средствами интегрированной системы Statistica»
Новосибирск 2018
Оглавление
- Введение
- Ход работы
- Заключение
Введение
1. Цель работы
- изучить методы и алгоритмы прогнозирования временных рядов на примере решения конкретной задачи ИАД;
- исследовать эффективность использования различных методов прогнозирования временных рядов для решения прикладной задачи;
- ознакомиться и получить практические навыки работы с модулями интегрированной статистической системы Statistica, реализующими решение задачи прогнозирования временных рядов.
2. Постановка задачи
Представлен временной ряд выработки электроэнергии крупной электростанции (в млн. кВт. Ч) по месяцам с 1999 по 2014 гг. Необходимо построить прогнозную модель на основе имеющихся данных и осуществить прогнозирование выработки электроэнергии на январь-март 2015.
2.1. Прочитайте содержательную постановку задачи ИАД для вашего варианта. Подготовьте исходные данные для проведения интеллектуального анализа в системе Statistica.
2.2. Постройте линейный график временного ряда. На основе визуального анализа графика сделайте предварительные выводы о структуре временного ряда:
- наличие тренда; характер основной тенденции (монотонность; существование вертикальных и/или горизонтальных асимптот; рост (спад) уровней ряда с течением времени); тип функции тренда (линейная, нелинейная);
- наличие сезонной составляющей и характер сезонной составляющей (периодичность; амплитуда колебаний; постоянство (изменчивость) амплитуды колебаний с течением времени).
Метод последовательной идентификации составляющих ВР
2.3. Определите структурную модель тренда временного ряда. Определите две наиболее вероятные структурные модели тренда.
2.4. Идентифицируйте параметры выбранных структурных моделей тренда. Рассчитайте характеристики точности прогнозных моделей, заполните табл. 1.
2.5. По результатам расчетов (табл. 1) сделайте окончательный вывод относительно вида модели тренда. Постройте график исходного временного ряда с наложенной прогнозной моделью тренда.
2.6 Определите структурную модель сезонной составляющей ряда:
- постройте и проанализируйте периодограмму временного ряда;
- постройте структуру периодической гармонической функции.
2.7. Идентифицируйте параметры сезонной составляющей ряда. Рассчитайте характеристики точности прогнозной модели, содержащей тренд и сезонную составляющую, заполните табл. 1. Постройте график исходного временного ряда с наложенной прогнозной моделью.
2.8. Постройте автокорреляционную и частную автокорреляционную функции остатков прогнозной модели, построенной в п. 2.7. Сделайте вывод о наличии (отсутствии) автокорреляции в остатках и необходимости учета авторегрессионой составляющей в прогнозной модели ряда.
2.9. Определите структуру и параметры авторегрессионой составляющей ряда (в случае необходимости). Рассчитайте характеристики точности прогнозной модели, содержащей тренд, сезонную и авторегрессионую составляющие временного ряда, заполните табл. 1.
2.10. Проанализируйте табл. 1, выберите окончательный вариант прогнозной модели (тренд + сезонность + авторегрессия), обоснуйте свой выбор.
2.11. Для выбранного варианта прогнозной модели постройте гисто-грамму остатков и проверьте гипотезу о согласии распределения остатков с моделью нормального распределения, постройте автокорреляционную и частную автокорреляционную функции остатков.
2.12. Сделайте выводы об адекватности построенной прогнозной модели данным наблюдения.
2.13. Дайте содержательную интерпретацию полученных результатов. Опишите составляющие прогнозной модели в терминах решаемой задачи.
Метод экспоненциального сглаживания
2.14. Постройте прогнозную модель ВР на основе метода экспоненциального сглаживания. В модели учтите тренд и сезонную составляющую.
2.15. Заполните табл. 1.
2.16. Для модели экспоненциального сглаживания постройте гистограмму остатков и проверьте гипотезу о согласии распределения остатков с моделью нормального распределения, постройте автокорреляционную и частную автокорреляционную функции остатков.
2.17. Сделайте выводы об адекватности построенной прогнозной модели экспоненциального сглаживания данным наблюдения.
Ход работы
Построен линейный график временного ряда (рис. 1).
Рис. 1. Линейный график временного ряда
График проанализирован, по результатам анализа сделаны следующие выводы: интеллектуальный интегрированный statistica
1) Функция тренда - кривая, в конце наблюдается небольшой спад, затем рост уровней временного ряда.
2) Сезонная составляющая присутствует, т.к. временный ряд имеет дискретный характер.
3. Определены наиболее вероятные модели тренда:
a. Полином третьей степени;
b. Полином третьей степени + сезонная модель
Таблица 1. Характеристики точности прогнозных моделей
Модель 1 |
Модель 2 |
||
Прогнозная модель |
Полином третьей степени |
Полином третьей степени+сезонная модель |
|
Минимальный остаток |
-20,290460128995 |
-11,0188402749327 |
|
Максимальный остаток |
13,6058517195144 |
9,72548049133671 |
|
Средняя ошибка (Mean error) |
5.955170*10^-10 |
-0,0000000000323460425111222 |
|
СКО ошибки |
6,41534976163979 |
3,9587627484162 |
|
Средняя абсолютная ошибка (Mean absolute error) |
5,16033096709913 |
3,25218175378971 |
|
Сумма квадратов отклонений (Sums of squares) |
1.1374369535*10^-7 |
-0,00000000617810158587417 |
|
Средний квадрат отклонений (Mean square) |
3.594206*10^-19 |
5.44*10^-24 |
|
Средняя ошибка в процентах (Mean percentage error) |
-3,144345026632 |
-1,09078546916331 |
|
Средняя абсолютная ошибка в процентах (Mean abs. perc. error) |
12,6100645781803 |
7,67209936526971 |
|
Коэффициент детерминации |
0,624494579 |
0,857013682 |
4. Результаты расчетов (табл. 1) подтверждают, что модель тренда - полином третьей степени. Построен график исходного временного ряда с наложенной прогнозной моделью тренда (рис 3).
Рис. 2. График исходного временного ряда с наложенной прогнозной моделью
5. Построена периодограмма временного ряда (рис. 4).
Рис. 3. Периодограмма временного ряда
6. Был использован метод экспоненциального сглаживания с учетом сезонности (рис. 6).
Рис. 4. Метод экспоненциального сглаживания
7. По выбранному варианту модели построены автокорреляционная функция остатков (рис. 5) и частичная автокорреляционная функция остатков (рис. 6).
Рис. 5. Автокорреляционная функция остатков
Рис.6. Частичная автокорреляционная функция остатков
Поскольку остатки не выходят за границы доверительного интервала, был сделан вывод, что прогнозируемая модель адекватна временному ряду.
Заключение
В данной работе была решена задача интеллектуального анализа данных, с применением нескольких различных методов и алгоритмов прогнозирования временных рядов. Было построено две прогнозных модели, данные внесены в таблицу 1.
Проведен сравнительный анализ результатов, в результате чего были сделаны выводы о том, что модель №2 наиболее точная. Такой вывод был сделан вследствие того, что средняя ошибка, средний квадрат отклонений, средняя абсолютная ошибка в процентах минимальны именно у второй модели.
В процессе работы использовались модули интегрированной статистической системы Statistica, с помощью которых и была решена задача прогнозирования временных рядов.
Размещено на Allbest.ru
...Подобные документы
Общее описание программы Statistica. Архитектура и интерфейс системы. Регрессионный анализ в Statistica. Решение задачи регрессионного анализа с помощью пакета анализа данных табличного процессора MS Excel. Многомерный дисперсионный анализ в SPSS.
курсовая работа [2,4 M], добавлен 22.01.2013Ознакомление с основами программного пакета Statistica. Описание статистики и графики. Группировка данных, корреляции, методы множественной регрессии. Рассмотрение набора непараметрических статистик. Реализация дисперсионного и ковариационного анализа.
контрольная работа [544,5 K], добавлен 09.06.2015Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.
курсовая работа [706,3 K], добавлен 07.08.2013Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Интеллектуальный анализ данных как метод поддержки принятия решений, основанный на анализе зависимостей между данными, его роль, цели и условия применения. Сущность основных задач интеллектуального анализа: классификации, регрессии, прогнозирования.
контрольная работа [25,8 K], добавлен 08.08.2013Разработка системы прогнозирования временных рядов динамики продаж товаров с учетом факторов влияния ForExSal, предназначенной для определения краткосрочного прогноза предполагаемого спроса. Анализ концептуальной и функциональной схемы работы системы.
отчет по практике [1,9 M], добавлен 27.03.2011Применение нейрокомпьютеров на российском финансовом рынке. Прогнозирование временных рядов на основе нейросетевых методов обработки. Определение курсов облигаций и акций предприятий. Применение нейронных сетей к задачам анализа биржевой деятельности.
курсовая работа [527,2 K], добавлен 28.05.2009Формализованное описание закона Pearson Type V. Характеристика методов получения выборки с распределением Pearson Type V. Исследование временных рядов с шумом заданным Rayleigh. Экспериментальное исследование средней трудоемкости Pirson Type V и Rayleigh.
курсовая работа [4,5 M], добавлен 20.06.2010Применение методов многомерного анализа для визуализации взаимосвязей web и социальных сетей в социологических исследованиях. Системы интеллектуального поиска данных Nigma.ru, Wolfram Alpha и Quintura. Социологическая информация и эмпирические данные.
презентация [2,6 M], добавлен 09.10.2013Исследование интегрированной среды для создания и манипулирования с табличной базой данных. Характеристика процесса работы в режиме интерпретации, создания структуры файлов. Изучение состава элементов командного языка СУБД, организации системы меню.
контрольная работа [45,0 K], добавлен 22.02.2012Создание web-сайта для сбора статистических данных, прогнозирования возможностей системы общего образования и анализа демографического состояния региона в динамике. Проектирование базы данных, разработка компонентов, алгоритмов и программного обеспечения.
дипломная работа [3,1 M], добавлен 15.04.2013Краткая характеристика интегрированной среды Turbo Pascal. Принципы программирования разветвляющихся алгоритмов, циклических структур, задач обработки символьных данных, множеств. Правила записи данных в текстовый файл. Понятие явной и косвенной рекурсии.
учебное пособие [1,5 M], добавлен 10.12.2010Использование информационных технологий для решения транспортных задач. Составление программ и решение задачи средствами Pascal10; алгоритм решения. Работа со средствами пакета Microsoft Excel18 и MathCad. Таблица исходных данных, построение диаграммы.
курсовая работа [749,1 K], добавлен 13.08.2012Решение задачи средствами прикладных программ. Разработка алгоритмов и структур данных. Реализация задачи определения статистических данных по успеваемости на факультете на языке программирования C#. Программа перевода чисел в различные системы счисления.
курсовая работа [519,9 K], добавлен 03.01.2015Методы работы с электронными таблицами и построение баз данных. Ознакомление с формами статистической отчетности предприятий и соответствующими информационными системами. Повышение уровня компьютерной грамотности студентов. Решение задач менеджмента.
практическая работа [1,2 M], добавлен 19.09.2008Создание структуры базы данных. Таблица реквизитов входных данных информационной системы "Видеобиблиотека". Процессы, составляющие действие в базе данных. Формирование ведомостей с использованием MS Excel. Использование интегрированной среды Delphi.
курсовая работа [455,8 K], добавлен 05.01.2013Создание макроса на языке Statistica Visual Basic (SVB) для проверки гипотезы о нормальности остатков множественной регрессии. Возможности программирования на языке SVB в пакете STATISTICA. Проверка гипотезы в модели вторичного рынка жилья в г. Минске.
курсовая работа [573,1 K], добавлен 02.10.2009Методы анализа данных, применяемые в диагностике. Кластерный анализ, иерархическая группировка. Система статистического анализа, язык программирования, интерфейс для связи. Установка для контроля сварных соединений. Векторы классификации для измерений.
дипломная работа [769,3 K], добавлен 03.01.2014Построение информационно-логической модели базы данных. Корректировка данных средствами запросов. Проектирование алгоритмов обработки данных. Реализация пользовательского интерфейса средствами форм. Разработка запросов для корректировки и выборки данных.
курсовая работа [680,9 K], добавлен 19.10.2010Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.
лабораторная работа [998,9 K], добавлен 25.11.2014