Компьютерная обработка статистических данных

Графическое изображение зависимости между величинами. Анализ зависимости размера пошлины от длины танкера и прогнозирование значений. Сравнение графиков подобранной зависимости и имеющихся данных. Прогноз с использованием линейной аппроксимации.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 24.03.2014
Размер файла 377,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Курсовая

Тема: Компьютерная обработка статистических данных

Содержание

1. Графическое изображение зависимости между величинами

2. Уравнение регрессии

3. Сравнение графиков подобранной зависимости и имеющихся данных

4. Прогнозирование

5. Оценивание

Введение

В современных организациях одной из важнейших задач является сбор и обработка данных. Благодаря точной и правильной оценке полученной информации можно сделать выводы о правильных путях развития организации и выявить возникшие проблемы на самых ранних стадиях.

Первым этапов в работе с данными является сбор данных. Чаще всего, сбором данных занимается специальное оборудование и программы.

Следующий этап работы с информацией - анализ данных. Чаще всего любой анализ количественных данных производится при помощи программы Microsoft Exel. Анализ данных в exel позволяет значительно быстрее произвести все необходимые расчеты за счет наличия встроенных экономических, математических и финансовых формул. Именно поэтому анализ данных в exel сегодня распространен намного шире, нежели другие программные обеспечения статистики.

Одним из основных методов анализа данных является статистическая обработка. По сути своей статистическая обработка данных подразумевает группировку и работу с некоторыми количественными данными. Благодаря методам статистического анализа можно выявить средние и максимальные значения, заметить тенденции развития и найти наиболее рациональный путь развития.

1. Графическое изображение зависимости между величинами

Дана статистическая выборка данных. Объем выборки n=9.

Длина танкера

96

56

85

57

72

97

99

75

82

Размер пошлины

22

13

20

13

16

23

24

17

19

Статистическое распределение выборки

1. Пусть в результате проведения некоторого эксперимента была получена выборка х1, х2, х3... хn. Если все xi различны, то, расположив их в порядке возрастания, получим вариационный ряд.

1. Упорядочим таблицу по возрастанию длины танкера (для удобства дальнейших вычислений) и получим вариационный ряд.

Длина танкера

Размер пошлины

56

13

57

13

73

16

75

17

82

19

85

20

96

22

97

23

99

24

Графическое изображение зависимости между величинами дает возможность представить эту зависимость наглядно.

Условимся обозначить через Х независимую переменную, а через Y зависимую переменную.

В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество значений другой переменной, причем сказать заранее, какое именно значение примет зависимая величина Y, нельзя. Такая зависимость получила название статистической (или стохастической, вероятностной). Более часто появление такой зависимости объясняется действием на результирующую переменную не только контролируемого или контролируемых факторов (в данном случае таким контролируемым фактором является переменная Х), а и многочисленных неконтролируемых случайных факторов.

Экспериментальные данные изобразим в виде точек в системе декартовых координат. Ломаная линия, соединяющая эти точки, называется эмпирической линией регрессии. По виду ломанной можно предположить наличие корреляционной зависимости Y по Х между двумя рассматриваемыми переменными, которая графически выражается тем точнее, чем больше объем выборки.

На построенной точечной диаграмме видим, что при увеличении размера танкера заметно увеличение величины пошлины. (Линейная зависимость).

2. Уравнение регрессии

Предполагая, что между X и Y существует линейная зависимость y=a+bx, способом наименьших квадратов определить коэффициенты a и b.

Уравнение регрессии выглядит следующим образом: Y=a+b*X

При помощи этого уравнения переменная Y выражается через константу a и угол наклона прямой (или угловой коэффициент) b, умноженный на значение переменной X. Константу a также называют свободным членом, а угловой коэффициент - коэффициентом регрессии или B-коэффициентом.

В большинстве случав (если не всегда) наблюдается определенный разброс наблюдений относительно регрессионной прямой.

Остаток - это отклонение отдельной точки (наблюдения) от линии регрессии (предсказанного значения).

Выбрав вид функции регрессии, т.е. вид рассматриваемой модели зависимости Y от Х (или Х от У), например, линейную модель yx=a+bx, необходимо определить конкретные значения коэффициентов модели.

При различных значениях а и b можно построить бесконечное число зависимостей вида yx=a+bx т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов.

Линейную функцию a+bx ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используем метод наименьших квадратов.

Обозначим: Yi - значение, вычисленное по уравнению Yi=a+bxi. yi - измеренное значение, еi=yi-Yi - разность между измеренными и вычисленными по уравнению значениям, еi=yi-a-bxi.

В методе наименьших квадратов требуется, чтобы еi, разность между измеренными yi и вычисленными по уравнению значениям Yi, была минимальной. Следовательно, находим коэффициенты а и b так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:

Исследуя на экстремум эту функцию аргументов а и с помощью производных, можно доказать, что функция принимает минимальное значение, если коэффициенты а и b являются решениями системы:

(2)

Длина танкера, X

Размер пошлины, Y

x*Y

X*X

56

13

728

3136

57

13

741

3249

73

16

1168

5329

75

17

1275

5625

82

19

1558

6724

85

20

1700

7225

96

22

2112

9216

97

23

2231

9409

99

24

2376

9801

720

167

13889

59714

Итак,

B=

0,2502365

A=

-1,4633659

Y= 0,25 x- 1,4634 является уравнением линейной регрессии.

Регрессия прямая, т.к. b>0. Прямая регрессия означает, что при росте одного параметра, значения другого параметра тоже увеличиваются.

3. Сравнение графиков подобранной зависимости и имеющихся данных

4. Прогнозирование

Если правой кнопкой мышки щелкнуть по одной из точек графика, то в контекстном меню можно увидеть команду «Добавить линию тренда». Это и есть необходимая нам линия. Добавляется она тоже в два шага. На первом выбирается тип (линейный), на втором - параметры. На вкладке Параметры нам важно поставить галочки против слов: «показывать уравнение» и «поместить величину достоверности». Примерный вид графика после добавления линии тренда представлен на рисунке. Выведенное уравнение прямой и величины достоверности совпадает с рассчитанными далее.

5. Оценивание. Статистические характеристики

Для оценки того, насколько точно линейная модель описывает имеющиеся зависимости, вычислим.

Коэффициент достоверности аппроксимации R2 показывает степень соответствия трендовой модели исходным данным. Его значение может лежать в диапазоне от 0 до 1. Чем ближе R2 к 1, тем точнее модель описывает имеющиеся данные.

В Excel она вычисляется следующим образом

В нашей задаче используя средства анализа Excel получили

Y= 0,25 x- 1,4634

зависимость прогнозирование график аппроксимация

Анализ результатов позволяет предположить, что прогноз с использованием линейной аппроксимации является точным, т.к. степень достоверности аппроксимации (R2=1 вычисленная Excel)в этом случае высокая.

В случае линейной регрессии -- объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае -- коэффициент детерминации -- это доля объяснённой суммы квадратов в общей:

- фактические и расчетные значения объясняемой переменной.

- общая сумма квадратов.

Длина танкера, X

Размер пошлины, Y

x*Y

X*X

Yi

Yi-Yср

(Yi-Yср)2

Y-Yср

(Xi-Mx)2

(Y-Yср)2

56

13

728

3136

12,54988

-6,00568

36,0681495

-5,55556

576

30,8642

57

13

741

3249

12,80012

-5,75544

33,1250887

-5,55556

529

30,8642

73

16

1168

5329

16,8039

-1,75166

3,06829744

-2,55556

49

6,530864

75

17

1275

5625

17,30437

-1,25118

1,56545788

-1,55556

25

2,419753

82

19

1558

6724

19,05603

0,500473

0,25047326

0,444444

4

0,197531

85

20

1700

7225

19,80674

1,251183

1,56545788

1,444444

25

2,08642

96

22

2112

9216

22,55934

4,003784

16,0302887

3,444444

256

11,8642

97

23

2231

9409

22,80958

4,254021

18,0966931

4,444444

289

19,75309

99

24

2376

9801

23,31005

4,754494

22,6052118

5,444444

361

29,64198

720

167

13889

59714

18,55556

132,375118

 

2114

134,2222

У среднее

 

Сумма квадратов остатков регрессии

 

R2=

0,986238

R2=132,375/134,22= 0,986238

Найдем статистические характеристики

ФОРМУЛЫ

Математическое ожидание Mx

80

Dx дисперсия

234,88889

Среднеквадратическое отклонение

15,326085

Использованная литература

1. Бродский Я.С. Статистика. Вероятность. Комбинаторика / Я.С. Бродский. М.: ООО «Издательство Оникс»: ООО «Издательство «Мир и Образование», 2008. 544 с.

2. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. М.: Высшая школа, 2004. 405 с.

3. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа, 2003. 479 с.

4. Гнеденко Б.В. Курс теории вероятностей. М.: Едиториал УРСС, 2005. 448 с.

5. Электронная книга по курсу ТВ и МС.

Размещено на Allbest.ru

...

Подобные документы

  • Задача на нахождение вида зависимости горизонтальной длины полета тела и максимальной высоты траектории от одного из коэффициентов сопротивления среды, фиксировав остальные параметры. Графическое изображение зависимости. Текст программы в среде MathCAD.

    курсовая работа [33,9 K], добавлен 31.05.2010

  • Вычисление значений регрессионно-авторегрессионной зависимости заданного выражения линейного программирования. Графическое представление математической модели в виде уравнения регрессии. Принципи оптимизации производственных и коммерческих операций.

    контрольная работа [2,2 M], добавлен 01.03.2011

  • Интерполяция данных с использованием значений функции, заданной множеством точек, для предсказания значения функции между ними. Результаты линейной интерполяции в графическом виде. Кубическая сплайн-интерполяция. Функции для поиска вторых производных.

    презентация [2,7 M], добавлен 29.09.2013

  • Определение доли перевозчиков в их общем количестве средствами Excel. Автоматическое и ручное прогнозирование линейной и экспоненциальной зависимости. Вычисление тенденций с помощью добавления линии тренда на диаграмму. Возможности процессора MathCAD.

    контрольная работа [3,8 M], добавлен 03.04.2012

  • Основные тенденции развития методов физической организации данных. Пространство памяти и размещение хранимых данных. Организация связей между хранимыми записями. Функциональные зависимости между атрибутами. Средства поддержания целостности базы данных.

    курсовая работа [1,7 M], добавлен 18.11.2015

  • Описание мониторинга выбросов случайных процессов контролируемых параметров. Основные принципы обработки статистических данных в базисе аддитивной аппроксимации стандартными распределениями. Разработка методов аппроксимирующих вкладов значений выборки.

    контрольная работа [308,2 K], добавлен 19.08.2015

  • Алгоритмическое решение задач как метод формализации, его использование на современном этапе, применение информационных технологий. Разработка программы для определения функциональной зависимости в массиве данных с помощью языка программирования С++.

    курсовая работа [99,4 K], добавлен 04.11.2009

  • Функциональные зависимости и нормализация отношений. Ограничения целостности данных. Описание таблиц на языке SQL. Интерфейс пользователя и надёжность программ обработки данных. Обработка данных с помощью запросов. Работа с данными из внешних источников.

    дипломная работа [1,6 M], добавлен 25.04.2015

  • Алгоритмическое решение задач как метод формализации. Реализация простейшей самоорганизующейся таблицы с самоорганизацией методом транспозиции. Описание модулей алгоритма и листинг программы для определения функциональной зависимости в массиве данных.

    курсовая работа [219,9 K], добавлен 25.11.2009

  • Свойства объектов и проверка расчетной зависимости на основании экспериментальной выборки. Построение графической зависимости экспериментальных и расчетных значений от x для их сравнения. Выполнение работы в среде Visual Basic, Excel и MathCAD.

    курсовая работа [261,9 K], добавлен 20.05.2011

  • Сущности и функциональные зависимости базы данных. Атрибуты и связи. Таблицы базы данных. Построение ER-диаграммы. Организация ввода и корректировки данных. Реляционная схема базы данных. Реализация запросов, получение отчетов. Защита базы данных.

    курсовая работа [2,4 M], добавлен 06.02.2016

  • Исследование основных особенностей алгоритмов быстрой и поразрядной сортировки данных. Построение графиков зависимости времени сортировки от количества элементов в файле и от степени перемешенности элементов. Описания сортировки чисел и строковых данных.

    лабораторная работа [1,2 M], добавлен 23.07.2012

  • Методика разработки сайта. Алгоритм ввода данных о туре и ценах, расчет стоимости тура в зависимости от выбранных клиентом параметров в диалоговом режиме, реализованы механизмы контакта с клиентами, обработка и анализ полученных данных по заявкам.

    дипломная работа [2,9 M], добавлен 16.07.2013

  • Технология отображения концептуальной модели базы данных на реляционную модель данных. Описание связей между атрибутами отношения при помощи функциональной зависимости. Нормализация как процесс последовательной замены таблицы ее полными декомпозициями.

    презентация [104,6 K], добавлен 19.08.2013

  • Режимы компьютерной обработки данных. Понятие и типы данных, структура и отличительные особенности. Характеристика основных операций, проводимых с данными, приемы их кодирования. Порядок и инструменты измерения информации и единицы хранения данных.

    контрольная работа [104,1 K], добавлен 22.11.2010

  • Логическое проектирование базы данных по автоматизации деятельности строительной компании. Классификация связей. Реляционная модель базы данных. Функциональные зависимости между атрибутами. Выбор ключей. Нормализация отношений. Запросы к базе данных.

    курсовая работа [1,2 M], добавлен 26.05.2015

  • Беспроводные и проводные системы передачи данных. Методы обеспечения безошибочности передачи данных в сетях. Оценка зависимости показателей эффективности. Снижение вероятности появления ошибки сбора данных в соответствии с предъявленными требованиями.

    дипломная работа [309,0 K], добавлен 14.10.2014

  • Алгоритм создания базы данных табличного типа для двух объектов в MS Excel, сортировка данных согласно заданным критериям, расчет показателей с использованием статистических функций программы. Прогноз характера изменения объёма продажи оборудования.

    курсовая работа [488,9 K], добавлен 01.02.2011

  • Перечень используемых сущностей и атрибутов. Классификация и типы связей, их функциональные особенности. Реляционная модель базы данных, ее структура и разработка. Функциональные зависимости между атрибутами, требования к программному обеспечению.

    курсовая работа [4,0 M], добавлен 26.05.2015

  • Функция протокола и структура пакета разрабатываемого протокола. Длина полей заголовка. Расчет длины буфера на приеме в зависимости от длины пакета и допустимой задержки. Алгоритмы обработки данных на приеме и передаче. Программная реализация протокола.

    курсовая работа [1,0 M], добавлен 18.05.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.