Компьютерная обработка статистических данных
Графическое изображение зависимости между величинами. Анализ зависимости размера пошлины от длины танкера и прогнозирование значений. Сравнение графиков подобранной зависимости и имеющихся данных. Прогноз с использованием линейной аппроксимации.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 24.03.2014 |
Размер файла | 377,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Курсовая
Тема: Компьютерная обработка статистических данных
Содержание
1. Графическое изображение зависимости между величинами
2. Уравнение регрессии
3. Сравнение графиков подобранной зависимости и имеющихся данных
4. Прогнозирование
5. Оценивание
Введение
В современных организациях одной из важнейших задач является сбор и обработка данных. Благодаря точной и правильной оценке полученной информации можно сделать выводы о правильных путях развития организации и выявить возникшие проблемы на самых ранних стадиях.
Первым этапов в работе с данными является сбор данных. Чаще всего, сбором данных занимается специальное оборудование и программы.
Следующий этап работы с информацией - анализ данных. Чаще всего любой анализ количественных данных производится при помощи программы Microsoft Exel. Анализ данных в exel позволяет значительно быстрее произвести все необходимые расчеты за счет наличия встроенных экономических, математических и финансовых формул. Именно поэтому анализ данных в exel сегодня распространен намного шире, нежели другие программные обеспечения статистики.
Одним из основных методов анализа данных является статистическая обработка. По сути своей статистическая обработка данных подразумевает группировку и работу с некоторыми количественными данными. Благодаря методам статистического анализа можно выявить средние и максимальные значения, заметить тенденции развития и найти наиболее рациональный путь развития.
1. Графическое изображение зависимости между величинами
Дана статистическая выборка данных. Объем выборки n=9.
Длина танкера |
96 |
56 |
85 |
57 |
72 |
97 |
99 |
75 |
82 |
|
Размер пошлины |
22 |
13 |
20 |
13 |
16 |
23 |
24 |
17 |
19 |
Статистическое распределение выборки
1. Пусть в результате проведения некоторого эксперимента была получена выборка х1, х2, х3... хn. Если все xi различны, то, расположив их в порядке возрастания, получим вариационный ряд.
1. Упорядочим таблицу по возрастанию длины танкера (для удобства дальнейших вычислений) и получим вариационный ряд.
Длина танкера |
Размер пошлины |
|
56 |
13 |
|
57 |
13 |
|
73 |
16 |
|
75 |
17 |
|
82 |
19 |
|
85 |
20 |
|
96 |
22 |
|
97 |
23 |
|
99 |
24 |
Графическое изображение зависимости между величинами дает возможность представить эту зависимость наглядно.
Условимся обозначить через Х независимую переменную, а через Y зависимую переменную.
В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество значений другой переменной, причем сказать заранее, какое именно значение примет зависимая величина Y, нельзя. Такая зависимость получила название статистической (или стохастической, вероятностной). Более часто появление такой зависимости объясняется действием на результирующую переменную не только контролируемого или контролируемых факторов (в данном случае таким контролируемым фактором является переменная Х), а и многочисленных неконтролируемых случайных факторов.
Экспериментальные данные изобразим в виде точек в системе декартовых координат. Ломаная линия, соединяющая эти точки, называется эмпирической линией регрессии. По виду ломанной можно предположить наличие корреляционной зависимости Y по Х между двумя рассматриваемыми переменными, которая графически выражается тем точнее, чем больше объем выборки.
На построенной точечной диаграмме видим, что при увеличении размера танкера заметно увеличение величины пошлины. (Линейная зависимость).
2. Уравнение регрессии
Предполагая, что между X и Y существует линейная зависимость y=a+bx, способом наименьших квадратов определить коэффициенты a и b.
Уравнение регрессии выглядит следующим образом: Y=a+b*X
При помощи этого уравнения переменная Y выражается через константу a и угол наклона прямой (или угловой коэффициент) b, умноженный на значение переменной X. Константу a также называют свободным членом, а угловой коэффициент - коэффициентом регрессии или B-коэффициентом.
В большинстве случав (если не всегда) наблюдается определенный разброс наблюдений относительно регрессионной прямой.
Остаток - это отклонение отдельной точки (наблюдения) от линии регрессии (предсказанного значения).
Выбрав вид функции регрессии, т.е. вид рассматриваемой модели зависимости Y от Х (или Х от У), например, линейную модель yx=a+bx, необходимо определить конкретные значения коэффициентов модели.
При различных значениях а и b можно построить бесконечное число зависимостей вида yx=a+bx т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов.
Линейную функцию a+bx ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используем метод наименьших квадратов.
Обозначим: Yi - значение, вычисленное по уравнению Yi=a+bxi. yi - измеренное значение, еi=yi-Yi - разность между измеренными и вычисленными по уравнению значениям, еi=yi-a-bxi.
В методе наименьших квадратов требуется, чтобы еi, разность между измеренными yi и вычисленными по уравнению значениям Yi, была минимальной. Следовательно, находим коэффициенты а и b так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:
Исследуя на экстремум эту функцию аргументов а и с помощью производных, можно доказать, что функция принимает минимальное значение, если коэффициенты а и b являются решениями системы:
(2)
Длина танкера, X |
Размер пошлины, Y |
x*Y |
X*X |
|
56 |
13 |
728 |
3136 |
|
57 |
13 |
741 |
3249 |
|
73 |
16 |
1168 |
5329 |
|
75 |
17 |
1275 |
5625 |
|
82 |
19 |
1558 |
6724 |
|
85 |
20 |
1700 |
7225 |
|
96 |
22 |
2112 |
9216 |
|
97 |
23 |
2231 |
9409 |
|
99 |
24 |
2376 |
9801 |
|
720 |
167 |
13889 |
59714 |
Итак,
B= |
0,2502365 |
|
A= |
-1,4633659 |
Y= 0,25 x- 1,4634 является уравнением линейной регрессии.
Регрессия прямая, т.к. b>0. Прямая регрессия означает, что при росте одного параметра, значения другого параметра тоже увеличиваются.
3. Сравнение графиков подобранной зависимости и имеющихся данных
4. Прогнозирование
Если правой кнопкой мышки щелкнуть по одной из точек графика, то в контекстном меню можно увидеть команду «Добавить линию тренда». Это и есть необходимая нам линия. Добавляется она тоже в два шага. На первом выбирается тип (линейный), на втором - параметры. На вкладке Параметры нам важно поставить галочки против слов: «показывать уравнение» и «поместить величину достоверности». Примерный вид графика после добавления линии тренда представлен на рисунке. Выведенное уравнение прямой и величины достоверности совпадает с рассчитанными далее.
5. Оценивание. Статистические характеристики
Для оценки того, насколько точно линейная модель описывает имеющиеся зависимости, вычислим.
Коэффициент достоверности аппроксимации R2 показывает степень соответствия трендовой модели исходным данным. Его значение может лежать в диапазоне от 0 до 1. Чем ближе R2 к 1, тем точнее модель описывает имеющиеся данные.
В Excel она вычисляется следующим образом
В нашей задаче используя средства анализа Excel получили
Y= 0,25 x- 1,4634
зависимость прогнозирование график аппроксимация
Анализ результатов позволяет предположить, что прогноз с использованием линейной аппроксимации является точным, т.к. степень достоверности аппроксимации (R2=1 вычисленная Excel)в этом случае высокая.
В случае линейной регрессии -- объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае -- коэффициент детерминации -- это доля объяснённой суммы квадратов в общей:
- фактические и расчетные значения объясняемой переменной.
- общая сумма квадратов.
Длина танкера, X |
Размер пошлины, Y |
x*Y |
X*X |
Yi |
Yi-Yср |
(Yi-Yср)2 |
Y-Yср |
(Xi-Mx)2 |
(Y-Yср)2 |
|
56 |
13 |
728 |
3136 |
12,54988 |
-6,00568 |
36,0681495 |
-5,55556 |
576 |
30,8642 |
|
57 |
13 |
741 |
3249 |
12,80012 |
-5,75544 |
33,1250887 |
-5,55556 |
529 |
30,8642 |
|
73 |
16 |
1168 |
5329 |
16,8039 |
-1,75166 |
3,06829744 |
-2,55556 |
49 |
6,530864 |
|
75 |
17 |
1275 |
5625 |
17,30437 |
-1,25118 |
1,56545788 |
-1,55556 |
25 |
2,419753 |
|
82 |
19 |
1558 |
6724 |
19,05603 |
0,500473 |
0,25047326 |
0,444444 |
4 |
0,197531 |
|
85 |
20 |
1700 |
7225 |
19,80674 |
1,251183 |
1,56545788 |
1,444444 |
25 |
2,08642 |
|
96 |
22 |
2112 |
9216 |
22,55934 |
4,003784 |
16,0302887 |
3,444444 |
256 |
11,8642 |
|
97 |
23 |
2231 |
9409 |
22,80958 |
4,254021 |
18,0966931 |
4,444444 |
289 |
19,75309 |
|
99 |
24 |
2376 |
9801 |
23,31005 |
4,754494 |
22,6052118 |
5,444444 |
361 |
29,64198 |
|
720 |
167 |
13889 |
59714 |
18,55556 |
132,375118 |
|
2114 |
134,2222 |
||
У среднее |
|
Сумма квадратов остатков регрессии |
|
R2= |
0,986238 |
R2=132,375/134,22= 0,986238
Найдем статистические характеристики
ФОРМУЛЫ
Математическое ожидание Mx |
80 |
|
Dx дисперсия |
234,88889 |
|
Среднеквадратическое отклонение |
15,326085 |
Использованная литература
1. Бродский Я.С. Статистика. Вероятность. Комбинаторика / Я.С. Бродский. М.: ООО «Издательство Оникс»: ООО «Издательство «Мир и Образование», 2008. 544 с.
2. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. М.: Высшая школа, 2004. 405 с.
3. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа, 2003. 479 с.
4. Гнеденко Б.В. Курс теории вероятностей. М.: Едиториал УРСС, 2005. 448 с.
5. Электронная книга по курсу ТВ и МС.
Размещено на Allbest.ru
...Подобные документы
Задача на нахождение вида зависимости горизонтальной длины полета тела и максимальной высоты траектории от одного из коэффициентов сопротивления среды, фиксировав остальные параметры. Графическое изображение зависимости. Текст программы в среде MathCAD.
курсовая работа [33,9 K], добавлен 31.05.2010Вычисление значений регрессионно-авторегрессионной зависимости заданного выражения линейного программирования. Графическое представление математической модели в виде уравнения регрессии. Принципи оптимизации производственных и коммерческих операций.
контрольная работа [2,2 M], добавлен 01.03.2011Интерполяция данных с использованием значений функции, заданной множеством точек, для предсказания значения функции между ними. Результаты линейной интерполяции в графическом виде. Кубическая сплайн-интерполяция. Функции для поиска вторых производных.
презентация [2,7 M], добавлен 29.09.2013Определение доли перевозчиков в их общем количестве средствами Excel. Автоматическое и ручное прогнозирование линейной и экспоненциальной зависимости. Вычисление тенденций с помощью добавления линии тренда на диаграмму. Возможности процессора MathCAD.
контрольная работа [3,8 M], добавлен 03.04.2012Основные тенденции развития методов физической организации данных. Пространство памяти и размещение хранимых данных. Организация связей между хранимыми записями. Функциональные зависимости между атрибутами. Средства поддержания целостности базы данных.
курсовая работа [1,7 M], добавлен 18.11.2015Описание мониторинга выбросов случайных процессов контролируемых параметров. Основные принципы обработки статистических данных в базисе аддитивной аппроксимации стандартными распределениями. Разработка методов аппроксимирующих вкладов значений выборки.
контрольная работа [308,2 K], добавлен 19.08.2015Алгоритмическое решение задач как метод формализации, его использование на современном этапе, применение информационных технологий. Разработка программы для определения функциональной зависимости в массиве данных с помощью языка программирования С++.
курсовая работа [99,4 K], добавлен 04.11.2009Функциональные зависимости и нормализация отношений. Ограничения целостности данных. Описание таблиц на языке SQL. Интерфейс пользователя и надёжность программ обработки данных. Обработка данных с помощью запросов. Работа с данными из внешних источников.
дипломная работа [1,6 M], добавлен 25.04.2015Алгоритмическое решение задач как метод формализации. Реализация простейшей самоорганизующейся таблицы с самоорганизацией методом транспозиции. Описание модулей алгоритма и листинг программы для определения функциональной зависимости в массиве данных.
курсовая работа [219,9 K], добавлен 25.11.2009Свойства объектов и проверка расчетной зависимости на основании экспериментальной выборки. Построение графической зависимости экспериментальных и расчетных значений от x для их сравнения. Выполнение работы в среде Visual Basic, Excel и MathCAD.
курсовая работа [261,9 K], добавлен 20.05.2011Сущности и функциональные зависимости базы данных. Атрибуты и связи. Таблицы базы данных. Построение ER-диаграммы. Организация ввода и корректировки данных. Реляционная схема базы данных. Реализация запросов, получение отчетов. Защита базы данных.
курсовая работа [2,4 M], добавлен 06.02.2016Исследование основных особенностей алгоритмов быстрой и поразрядной сортировки данных. Построение графиков зависимости времени сортировки от количества элементов в файле и от степени перемешенности элементов. Описания сортировки чисел и строковых данных.
лабораторная работа [1,2 M], добавлен 23.07.2012Методика разработки сайта. Алгоритм ввода данных о туре и ценах, расчет стоимости тура в зависимости от выбранных клиентом параметров в диалоговом режиме, реализованы механизмы контакта с клиентами, обработка и анализ полученных данных по заявкам.
дипломная работа [2,9 M], добавлен 16.07.2013Технология отображения концептуальной модели базы данных на реляционную модель данных. Описание связей между атрибутами отношения при помощи функциональной зависимости. Нормализация как процесс последовательной замены таблицы ее полными декомпозициями.
презентация [104,6 K], добавлен 19.08.2013Режимы компьютерной обработки данных. Понятие и типы данных, структура и отличительные особенности. Характеристика основных операций, проводимых с данными, приемы их кодирования. Порядок и инструменты измерения информации и единицы хранения данных.
контрольная работа [104,1 K], добавлен 22.11.2010Логическое проектирование базы данных по автоматизации деятельности строительной компании. Классификация связей. Реляционная модель базы данных. Функциональные зависимости между атрибутами. Выбор ключей. Нормализация отношений. Запросы к базе данных.
курсовая работа [1,2 M], добавлен 26.05.2015Беспроводные и проводные системы передачи данных. Методы обеспечения безошибочности передачи данных в сетях. Оценка зависимости показателей эффективности. Снижение вероятности появления ошибки сбора данных в соответствии с предъявленными требованиями.
дипломная работа [309,0 K], добавлен 14.10.2014Алгоритм создания базы данных табличного типа для двух объектов в MS Excel, сортировка данных согласно заданным критериям, расчет показателей с использованием статистических функций программы. Прогноз характера изменения объёма продажи оборудования.
курсовая работа [488,9 K], добавлен 01.02.2011Перечень используемых сущностей и атрибутов. Классификация и типы связей, их функциональные особенности. Реляционная модель базы данных, ее структура и разработка. Функциональные зависимости между атрибутами, требования к программному обеспечению.
курсовая работа [4,0 M], добавлен 26.05.2015Функция протокола и структура пакета разрабатываемого протокола. Длина полей заголовка. Расчет длины буфера на приеме в зависимости от длины пакета и допустимой задержки. Алгоритмы обработки данных на приеме и передаче. Программная реализация протокола.
курсовая работа [1,0 M], добавлен 18.05.2014