Анализ поведения финансовых индексов с помощью методов математической статистики на примере поведения цены акций ОАО "Русгидро"
Построение интервального статистического ряда, исключение аномальных значений. Точечные оценки параметров предполагаемого закона распределения случайных величин методом максимального правдоподобия. Построение графика функции плотности вероятности.
Рубрика | Экономико-математическое моделирование |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 09.07.2015 |
Размер файла | 1,6 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
РОСТОВСКИЙ ГОСУДАРСТВЕННЫЙ СТРОИТЕЛЬНЫЙ УНИВЕРСИТЕТ
Институт информационных систем и технологий Кафедра прикладной математики и вычислительной техники
КУРСОВАЯ РАБОТА по дисциплине «Теория вероятностей и математическая статистика»
на тему: «Анализ поведения финансовых индексов с помощью методов математической статистики на примере поведения цены акций ОАО «Русгидро»
Выполнил студент группы ПИ-223 С.В. Кирпаль
Руководитель проекта
к.ф.-м.н., доцент В.В. Мисюра
Ростов-на-Дону 2015
Содержание
Введение
1. Первичный анализ данных
1.1 Описание входных данных. Получение ряда доходностей акций (случайной величины (СВ) Х). Построение графика доходностей
1.2 Построение интервального статистического ряда. Исключение аномальных значений
1.3 Построение гистограммы
1.4 Оценка функции распределения и построение ее графика
1.5 Интерпретация полученных результатов. Предварительный выбор закона распределения доходностей
2. Основные характеристики статистических данных. Точечные оценки параметров распределения
2.1 Вычисление основных характеристик выборочных данных. Свойства полученных оценок
2.2 Точечные оценки параметров предполагаемого закона распределения случайных величин методом максимального правдоподобия
2.3 Восстановление теоретических функции распределения и плотности распределения случайных величин
2.4 Построение доверительных интервалов для математического ожидания и дисперсии с надёжностью 0,95
2.5 Интерпретация полученных результатов
3. Проверка статистических гипотез
3.1 Проверка с помощью критерия согласия ч2 гипотезы о виде закона распределения случайных величин, уровень значимости б = 0,05
3.2 Построение графика функции плотности вероятности и сравнение его с гистограммой
3.3 Проверка гипотезы о равенстве математических ожиданий СВ полученных разделением исходных данных на две равные выборки
3.4 Проверка гипотезы о равенстве дисперсий СВ полученных разделением исходных данных на две равные выборки
Заключение
Список использованных источников
вероятность статистический ряд распределение
Введение
Актуальность темы исследования.
Теория вероятностей и математическая статистика является составной частью цикла математических дисциплин, составляющих фундамент математического образования специалиста. В любой области человеческой деятельности имеют место случайные явления, которые не позволяют осуществить точный прогноз результатов этой деятельности. Теория вероятностей и математическая статистика изучают закономерности случайных явлений. Знание этих закономерностей помогает принимать решения в условиях неопределённости, направленные на достижение поставленных целей.
Цель и задачи исследования.
Целью данной курсовой работы является анализ поведения финансовых индексов с помощью методов математической статистики на примере поведения цены акций.
Задачи:
1) Выполнить первичный анализ данных
2) Получить ряд доходностей акций
3) Вычислить и описать основные характеристики статистических данных, а также точечные оценки параметров распределения
4) Проверить статистические гипотезы
Объект исследования: математическая статистика, точечная оценка параметров распределения, проверка статистических гипотез с помощью критерия согласия.
Предмет исследования: цены акций ОАО «Русгидро».
Теоретико-методологические основы исследования.
Методологическими и теоретическими основаниями исследования являются:
учебники отечественных и иностранных авторов по методам оптимизации.
Структура работы определена целью и задачами, поставленными ниже, и состоит из введения, трёх глав, которые были разделены на параграфы, заключения и списка используемой литературы.
1. Первичный анализ данных
1.1 Описание входных данных. Получение ряда доходностей акций (случайной величины (СВ) Х). Построение графика доходностей
Анализ поведения финансовых индексов - важная часть в понимании деятельности компании. Этот анализ невозможно выполнить без методов математической статистики, которые, с определённой точностью, могут утверждать о тех или иных характеристиках выбранных данных.
Для того, чтобы провести данный анализ, сначала необходимо получить данные, которые будут в дальнейшем исследоваться. Эти данные можно взять с официального сайта статистики www.finam.ru. Для этого необходимо зайти на сайт, выбрать раздел "котировки", ввести название исследуемой компании (в данной курсовой работе исследуются цены акций компании ОАО «Русгидро»), нажать "найти".
После нахождения компании, откроется страница с дынными о цене акций, которая обновляется в реальном времени (рисунок 1).
Рисунок 1 Страница компании на сайте finam.ru
Чтобы получить эти данные в форме таблицы, нужно экспортировать котировки (меню слева), выбрать необходимые настройки и нажать кнопку "получить файл" (рисунок 2).
Рисунок 2 Сохранение котировок компании
После чего он сохранится в виде таблицы в формате csv с возможностью открыть его в программе MS Excel.
После открытия файла в Excel необходимо выбрать значение на закрытие торгов, обозначаемое "<CLOSE>" и привести его к цифровому значению. Это и служит входными данными исследования (рисунок 3).
Рисунок 3 Входные данные
Далее, для получения ряда доходностей, который служит в данном исследовании случайной величиной Х, необходимо найти натуральный логарифм от разности настоящего и предыдущего значений акций (рисунок 4). [см. 1]
Рисунок 4 Ряд доходностей акций
Далее необходимо ранжировать полученный финансовый индекс от наименьшего значения к наибольшему. Это производится для дальнейших вычислений.
График доходностей показан на рисунке 5. Чтобы его построить нужно выделить весь столбец индексов и в меню сверху, во вкладке вставить, выбрать необходимы вид диаграммы.
Рисунок 5 График доходностей
1.2 Построение интервального статистического ряда. Исключение аномальных значений
На графике доходностей заметны значения, которые значительно отличаются от остальных. Такие значения называют аномальными. Чтобы их исключить, из ранжированной выборки необходимо удалить самые большие и маленькие значения.
В данной работе исключено 5 значений: 4 наибольших и одно наименьшее.
Количество значений в выборке с исключёнными аномальными значениями - 57. Это значит, что значение n (объём выборки) равен этому значению.
Для того, чтобы построить интервальный статистический ряд, нужно сперва найти максимум и минимум выборки. В Excel они находятся, соответственно, с помощью функций =МАКС(интервал) и =МИН(интервал). Для выбора интервала (в данном случае F4:F60) его можно либо набрать вручную, либо выделить на листе Excel.
Далее находится количество интервалов по следующей функции: |
||
= ОКРУГЛ(1 + 1,4 ? (СЧЁТ( 4: 60)); 0). |
(1.1) |
|
В данной функции используется формула Стерджиса: |
||
= 1 + 1,4 ? ( ), |
(1.2) |
где n - объём выборки. Полученное значение округляется до целого в меньшую сторону.
Чтобы построить интервалы, необходимо также знать, какой шаг будет у карманов ряда. Шаг вычисляется как вычитание из максимума минимума, делённое на количество интервалов.
Далее в два столбца идут значения: номер интервала и карманы. Номера интервалов номеруются с нуля до значения количества интервалов, которое вычислялось ранее. Первое значение кармана вычисляется как минимум минус шаг, делёный на 2. Следующие значения карманов вычисляются как предыдущее значение кармана плюс шаг (рисунок 6). [см. 1]
Рисунок 6 Построение интервального статистического ряда В итоге вычислений получились следующие значения (рисунок 7)
Рисунок 7 Интервальный статистический ряд без аномальных значений
1.3 Построение гистограммы
Гистограмма необходима для визуального отображения частоты попадания значений в интервалы, а также для предварительного выбора закона распределения.
Гистограмма создаётся автоматически с помощью анализа данных в Excel.
Чтобы включить функцию анализа данных в Excel 2013 нужно во вкладке "Файл" выбрать пункт "Параметры", перейти в "Надстройки" и нажать кнопку "Перейти…".
Откроется панель "Надстройки", где нужно выбрать "Пакет анализа" и нажать ОК (рисунок 8).
Рису 8 Подключение Пакета анализа
Теперь во вкладке "Данные" появился пункт "Анализ", в котором есть "Анализ данных", при клике на который откроется меню с выбором нужного действия. Для создания диаграммы нужно выбрать пункт "Гистограмма".
В меню создания гистограммы нужно выбрать входной интервал (выборка), интервал карманов и выходной интервал, куда будет помещены карманы с частотами и сама гистограмма. Также нужно выбрать пункт "Вывод графика", чтобы вывелась гистограмма (рисунок 9). [см. 1]
Рисунок 9 Построение гистограммы Результат выполнения действий, указанных выше, приведён на рисунке 10
Рисунок 10 Карманы и гистограмма выборки
1.4 Оценка функции распределения и построение ее графика
Функцией распределения называется функция
(Х) = (Х) = (Х < ),
то есть функция распределения равна вероятности того, что случайная величина Х примет значение, меньшее х. Она содержит всю информация о случайной величине и поэтому изучение случайной величины заключается в исследовании ее функции распределения.
Оценкой функции распределения называется функция, задающая для каждого.
Использование данной функции целесообразно при больших значениях n.
Для её нахождения потребуются следующие значения: х, mi - число выборочных значений случайной величины (частота), mx - накопленная частота и щх - накопленная частость.
Накопленная частота - количество вариантов mi, значения которых меньше х.
То есть, сумма текущего и предыдущих значений частоты.
Накопленная частость - отношение накопленной частоты к общему числу наблюдений n.
Так как исследуется непрерывная случайная величина, оценка функции распределения строится по интервальному статистическому ряду. Для этого необходимо найти накопленные частоты и частости. В данном случае значения выборочной функции распределения равны значениям накопленных частостей.
Получаем следующие вычисления (рисунок 11). [см. 1]
Рисунок 11 Нахождение оценки функции распределения Получились следующие значения (рисунок 12)
Рисунок 12 Значения оценки функции распределения
Чтобы найти график оценки функции распределения, необходимо построить его по интервалу карманов и интервалу найденных оценок функций распределения (рисунок 13).
Рисунок 13 График оценки функции распределения
1.5 Интерпретация полученных результатов. Предварительный выбор закона распределения доходностей
На данном этапе выполнения курсовой работы, после построения диаграммы и нахождения оценки функции распределения, можно сделать предварительный выбор закона распределения. Вывод о законе распределения можно сделать из вида гистограммы, найденной в части 1.3: она имеет вид графика функции нормально распределённой случайной величины. Далее будет предполагаться, что работа ведётся именно с нормально распределённой случайной величиной.
2. Основные характеристики статистических данных. Точечные оценки параметров распределения
2.1 Вычисление основных характеристик выборочных данных. Свойства полученных оценок
Одна из основных задач статистики состоит в надлежащей обработке информации. Конечно, у статистики есть много других задач: получение и хранение информации, выработка различных прогнозов, оценка их достоверности и т. д. Но ни одна из этих целей не достижима без обработки данных. Поэтому, сперва необходимо выделить основные характеристики статистических данных.
Электронные таблицы Excel имеют огромный набор средств для анализа статистических данных. Наиболее часто используемые статистические функции встроены в основное ядро программы, то есть эти функции доступны с момента запуска программы. Другие более специализированные функции входят в дополнительную подпрограмму, называемую пакетом анализа. Команды и функции пакета анализа называют Инструментами анализа.
Рассмотрим основные характеристики выборочных данных.
Среднее значение.
С помощью среднего значения вычисляют выборочное (или генеральное) среднее, то есть среднее арифметическое значение признака выборочной (или генеральной) совокупности. В Excel среднее значение вычисляется так: =СУММ(F4:F60)/СЧЁТ(F4:F60). Также в Excel существует функция для его вычисления: СРЗНАЧ. Аргументом функции является набор чисел, как правило, задаваемый в виде интервала ячеек, например: =СРЗНАЧ (А3:А201).
Выборочная дисперсия и выборочное среднее квадратическое отклонение.
Выборочной дисперсией значений случайной величины Х называется среднее арифметическое квадратов отклонений наблюдаемых значений этой величины от их среднего арифметического:
Дисперсия характеризует отклонение от средней в квадратных единицах измерения признака, поэтому используют такой показатель, как среднее квадратичное отклонение, который измеряется в тех же единицах, что и изучаемый признак.
Выборочное среднее квадратичное отклонение определяется формулой:
Excel имеются функции, отдельно вычисляющие выборочную дисперсию Dв стандартное отклонение в и генеральные дисперсию Dг и стандартное отклонение г. Поэтому, прежде чем вычислять дисперсию и стандартное отклонение, следует четко определиться, являются ли ваши данные генеральной совокупностью или выборочной. В зависимости от этого нужно использовать для расчета Dг и г, Dв и в.
Вычисление выборочной дисперсии Dв и выборочного стандартного отклонения в производится с помощью функций: = СУММ(( 4: 60 ? 28)^2)/ (СЧЁТ( 4: 60)) и = КОРЕНЬ( 29).
В Excel имеются функции ДИСП (или VAR) и СТАНДОТКЛОН (или STDEV).
Аргументом этих функций является набор чисел, как правило, заданный диапазоном ячеек, например, =ДИСП (В1:В48).
Для вычисления генеральной дисперсии Dг и генерального стандартного отклонения г имеются функции ДИСПР (или VARP) и СТАНДОТКЛОНП (или STDEVP), соответственно.
Аргументы этих функций такие же, как и для выборочной дисперсии.
Объем совокупности.
Объем совокупности выборочной или генеральной - это число элементов совокупности. Функция СЧЕТ (или COUNT) определяет количество ячеек в заданном диапазоне, которые содержат числовые данные. Пустые ячейки или ячейки, содержащие текст, функция СЧЕТ пропускает. Аргументом функции СЧЕТ является интервал ячеек, например: =СЧЕТ (С2:С16).
Для определения количества непустых ячеек, независимо от их содержимого, используется функция СЧЕТ3. Ее аргументом является интервал ячеек.
Мода и медиана.
Мода ( ? ) - это значение признака, которое чаще других встречается в совокупности данных. Она вычисляется функцией МОДА (или MODE). Ее аргументом является интервал ячеек с данными. Мода не вычисляется при исследовании НСВ.
Медиана ( ? ) - это значение признака, которое разделяет совокупность на две равные по числу элементов части. Для вариационного ряда с нечётным числом членов медиана равна серединному варианту, а для ряда с чётным числом членов - полусумме двух серединных вариантов. Она вычисляется функцией МЕДИАНА (или MEDIAN). Ее аргументом является интервал ячеек.
Размах варьирования. Наибольшее и наименьшее значения.
Размах варьирования R - это разность между наибольшим xmax и наименьшим xmin значениями признака совокупности (генеральной или выборочной): R=xmax-xmin.
Для нахождения наибольшего значения xmax имеется функция МАКС (или MAX), а для наименьшего xmin - функция МИН (или MIN). Их аргументом является интервал ячеек. Для того, чтобы вычислить размах варьирования данных в интервале ячеек, например, от А1 до А100, следует ввести формулу: =МАКС (А1:А100)-МИН (А1:А100).
Коэффициент вариации. Вычисляется как процентное соотношение выборочного среднего квадратичного отклонения к средней арифметической.
Если коэффициент вариации высок (более 35%), то выборочная совокупность считается неоднородной. Следовательно, использование среднего для её характеристики является неверным. В этом случае используют моду или медиану.
Для оценки отклонения распределения данных эксперимента от нормального распределения используются такие характеристики как асимметрия А и эксцесс Е.
Для нормального распределения А=0 и Е=0.
Асимметрия показывает, на сколько распределение данных несимметрично относительно нормального распределения: если А>0, то большая часть данных имеет значения, превышающие среднее ; если А<0, то большая часть данных имеет значения, меньшие среднего . Асимметрия вычисляется функцией СКОС. Ее аргументом является интервал ячеек с данными, например, =СКОС (А1:А100).
Эксцесс оценивает «крутость», т.е. величину большего или меньшего подъема максимума распределения экспериментальных данных по сравнению с максимумом нормального распределения. Если Е>0, то максимум экспериментального распределения выше нормального; если Е<0, то максимум экспериментального распределения ниже нормального. Эксцесс вычисляется функцией ЭКСЦЕСС, аргументом которой являются числовые данные, заданные, как правило, в виде интервала ячеек, например: =ЭКСЦЕСС (А1:А100). [см. 5]
Получаем следующие вычисления (рисунок 14).
Рисунок 14 Вычисление основных характеристик
Получили следующие значения (рисунок 15).
Рисунок 15 Значения основных характеристик
Так как значение коэффициента вариации значительно превышает 35%, выборка является неоднородной и в качестве среднего значения используется медиана.
2.2 Точечные оценки параметров предполагаемого закона распределения случайных величин методом максимального правдоподобия
Точечная оценка параметров используется для нахождения числовой величины, которая и принимается за приближённое значение неизвестного параметра. Такую оценку целесообразно определять в тех случаях, когда объем выборки достаточно велик.
После определения предполагаемого закона распределения, можно приступать к нахождению параметров этого распределения. Существует много методов определения этих параметров, например, метод моментов, метод наименьших квадратов и метод максимального правдоподобия.
В данной работе используется метод максимального правдоподобия для нахождения параметров нормального распределения.
Необходимо оценить параметры и у2 предполагаемого нормального распределения.
Пусть случайная величина Х ? (, ), и = (, ) - оцениваемые параметры распределения.
Таким образом, в качестве оценки получаем: для среднего нормального закона распределения - выборочное среднее, а для дисперсии у2 - выборочную дисперсию Dв. [см. 3]
Вычисления и полученные результаты на листе Excel приведены на рисунках 16 и 17.
Рисунок 16 Вычисление точечной оценки параметров
Рисунок 17 Значения точечных оценок параметров
2.3 Восстановление теоретических функции распределения и плотности распределения случайных величин
Восстановление функции распределения по выборке случайных данных, полученных в результате проведения тех или иных экспериментов, является одной из основных задач математической статистики. Данная задача имеет важное практическое значение.
Чтобы восстановить теоретическую функцию распределения, сначала требуется создать 2 столбца со значениями, равными карманам. Первым значением в первом столбце находится первое значение кармана, первое значение во втором столбце - второе значение кармана. Далее нужно выделить эти ячейки и растянуть вниз до последнего значения кармана (рисунок 18).
Рисунок 18 Значения для восстановления функции распределения
Затем необходимо создать ещё в двух столбцах функции для значений х. Для этого используется функция НОРМРАСП, которой необходимо передать 4 параметра на вход: значение х, среднее значение, стандартное отклонение и логическое значение, определяющее форму функции (рисунок 19).
Рисунок 19 Функции НОРМРАСП
Далее находятся теоретическая плотность распределения и теоретическая частота.
Теоретическая плотность распределения вычисляется как разность функции f(x2) и функции f(x1). На листе Excel она обозначается, как "Вероятность". А теоретическая частота вычисляется как вероятность, умноженная на количество выборки (рисунок 20).
Рисунок 20 Нахождение вероятности и теоретической частоты
Теоретическая функция распределения находится аналогично функции распределения, описанная в параграфе 1.4. Результаты вычисления представлены на рисунке 21. [см. 2]
Рисунок 21 Теоретическая функция распределения
2.4 Построение доверительных интервалов для математического ожидания и дисперсии с надёжностью 0,95
В математической статистике доверительные интервалы используются для того, чтобы дать представление о точности и надёжности оценки Ю, так как вычисленная на основании имеющихся выборочных данных оценка Ю(1, 2, …, ) параметра является лишь приближённым значением неизвестного параметра даже в том случае, когда эта оценка состоятельна, несмещённая и эффективна.
Для этого вычисляют величину, которая с определённой достоверностью гарантировала бы выполнение неравенства | Ю ? | <. Т.е. выполнялось бы следующее соотношение:
Вероятность называется доверительной вероятностью или надёжностью интервальной оценки.
Широкий доверительный интервал указывает на то, что оценка неточна; узкий указывает на точную оценку.
Ширина доверительного интервала зависит от размера стандартной ошибки, которая, в свою очередь, зависит от объёма выборки и при рассмотрении числовой переменной от изменчивости данных дают более широкие доверительные интервалы, чем исследования многочисленного набора данных немногих переменных.
Для построения доверительного интервала математического ожидания при известном среднем квадратическом отклонении необходимо построить следующий
где а - оцениваемое математическое ожидание, х - выборочное среднее, п - объём выборки, t - значение аргумента функции Лапласа Ф0(t), при котором Ф0(t) = /2.
С вероятностью можно утверждать, что вычисленное по выборке ?даёт значение математического ожидания с точностью . v Величина = называется предельной ошибкой выборки.
Итак, = 0,95, это означает, что найденная по таблице Лапласа величина t = 1,96; найденная величина = 0,021071; величина выборки п = 57; ?= -0,003284.
Таким образом,
(?0,003284 ? 0,00547 < < ?0,003284 + 0,00547) = 0,95 (?0,00875 < < 0,00219) = 0,95
Это означает, что с вероятностью 95% можно быть уверенным в том, что интервал (?0,00875; 0,00219) накроет параметр а.
Для построения интервальной оценки дисперсии параметра 2 используется неравенство: накрывает неизвестное значение 2 с заданной вероятность.
Итак, = 0,95, это означает, что найденная по таблице Лапласа величина t = 1,96; выборочное среднее квадратическое отклонение s = 0,021259; величина выборки п = 57; среднее значение ?= -0, 0,003284.
Итак, с доверительной вероятностью = 0,95 можно утверждать, что среднее квадратическое отклонение будет находиться в интервале (0,01542; 0,03256).[см. 1]
2.5 Интерпретация полученных результатов
В этой главе данной курсовой работы проводилось самое большое количество вычислений: были найдены основные характеристики выборочных данных, точечные оценки параметров нормального закона распределения методом максимального правдоподобия, было проведено восстановление теоретической функции и плотности распределения, а также построены доверительные интервалы для МО и дисперсии.
Далее приведена интерпретация некоторых полученных результатов:
Вычисление моды выборки не производилось, так как случайная величина - непрерывная.
Так как коэффициент вариации больше 35%, в курсовой работе вместо среднего значения использовалась медиана.
Значение асимметрии показывает, что, так как оно меньше нуля, большая часть значений выборки меньше среднего значения.
Эксцесс определяет пологость графика и, так как найденное значение больше нуля, максимум экспериментального распределения выше нормального, то есть большее количество значений графика находятся в правой части.
доверительные интервалы показывают, в каких пределах может находиться оценка реального математического ожидания и дисперсии.
3. Проверка статистических гипотез
3.1 Проверка с помощью критерия согласия ч2 гипотезы о виде закона распределения случайных величин, уровень значимости б = 0,05
Одной из важнейших задач математической статистики является установление теоретического закона распределения случайной величины, характеризующей изучаемый признак по опытному распределению, представляющему вариационный ряд.
Для решения этой задачи необходимо знать вид и параметры закона распределения. Также необходимы параметры распределения, но так как они неизвестны, то используют их оценки. Данные наблюдения и вычисления были произведены в пунктах 1.5 и 2.2 данной курсовой работы.
Критерии согласия служат для ответа на вопрос, объясняются ли расхождения между теоретическим и эмпирическим законом распределения только случайными обстоятельствами, связанными с ограниченным числом наблюдений, или они являются существенными и связанными с тем, что теоретический закон распределения подобран неудачно.
Наиболее часто используемый на практике критерий согласия - критерий Пирсона ( 2).
Так как было предположено, что в данной курсовой работе выборка - нормальная распределённая величина, то в качестве оценок параметров а и принимается соответственно ? = ?и ?2 = 2. Также для нахождения критерия Пирсона вычисляются теоретическая вероятность и частота ( ?), используя теоретическую функцию распределения, найденную в параграфе 2.3.
Далее проверим гипотезу о нормальном законе распределения выборки данной курсовой работы.
Выдвигаем основную гипотезу H0: исследуемая случайная величина Х имеет нормальный закон распределения.
Далее копируем в два столбца: частоту, найденную с помощью анализа данных и теоретическую частоту, найденную в параграфе 2.3.
Если значение частоты или теоретической частоты меньше пяти, то данную пару прибавляют к следующей, пока каждая частота не станет больше либо равна пяти.
Теперь рассчитывается критерий расчёта как квадрат разницы частоты и теоретической частоты, делённый на теоретическую частоту. Сумма этих расчётных критериев и равна значению 2.
Критерий находится с помощью функции Excel =ХИ2ОБР и принимает параметры: уровень значимости и значение = ? ? 1 (количество оставшихся после группировки пар минус количество параметров закона распределения минус 1).
Получившиеся значения представлены на рисунке 22.
Рисунок 22 Проверка с помощью критерия согласия Пирсона
Критическая область выбирается правосторонней, это значит, что если 2 > 2 (, ), то гипотеза Н отвергается.
Но так как вычисленное значение 2 < 2, то гипотеза Н о виде закона распределения случайных величин принимается. При этом мы совершаем ошибку второго вида в 5%.
Таким образом, с вероятностью в 95% мы можем утверждать, что в данной курсовой работе исследуется нормально распределённая случайная величина. [см. 4]
3.2 Построение графика функции плотности вероятности и сравнение его с гистограммой
Данные для построения графика функции плотности вероятности нужно взять из столбца "Вероятность", найденные в параграфе 2.3. Также в начало нужно добавить 0. По этим данным строится гистограмма (рисунок 23). [см. 2]
Рисунок 23 График функции плотности вероятности Если сравнить с гистограммой, можно заметить, что график повторяет её черты (рисунок 24).
Рисунок 24 Сравнение гистограммы и графика
3.3 Проверка гипотезы о равенстве математических ожиданий СВ полученных разделением исходных данных на две равные выборки
В теории вероятностей проверка статистических гипотез используется для оценки эффективности нового метода ведения деятельности, метода выполнения какой-либо работы, использования новых видов ресурсов или применения новой технологии и т.д. Статистической гипотезой называется предположение о числовом значении параметра или о виде неизвестного закона распределения статистических данных. Для того, чтобы обосновать применение новой технологии или использование новых видов ресурсов, необходимо рассчитать параметры статистики, используя числовые характеристики генеральной и выборочной совокупности. Затем сделать вывод о том, что выдвигаемая изначально гипотеза не противоречит (или противоречит) имеющимся наблюдениям, путем сравнения полученных результатов с критическими.
Проверка статистической гипотезы делится на два этапа.
На первом этапе выдвигается гипотеза, например, об эффективности новой технологии Н0. Затем по выборочной совокупности рассчитывается значение параметра ив и сверяется с критическим значением икр, которое рассчитывается на основе точного или приближенного значения. Если гипотеза Н0 верна, то ив < икр и вероятность Р (ив > икр) = б мала. Согласно принципу практической уверенности данное событие можно считать практически невозможным. (В основе принципа практической уверенности лежит такой факт, что если вероятность события А мала, то при однократном испытании его можно считать практически невозможным.) Если ив > икр, то гипотеза Н0 отвергается.
При проверке статистической гипотезы Н0 можно допустить ошибку 1-го или 2-го рода.
Если гипотеза Н0 верна, но отвергается, то совершается ошибка 1-го рода. Если же неверна, но принимается - ошибка 2-го рода.
Вероятность допустить ошибку 1-го рода называется уровнем значимости критерия. Вероятность допустить ошибку 2-го рода называется мощностью критерия.
Для проверки гипотезы о равенстве математических ожиданий, нужно сначала разделить исходные данные на две выборки. Объём выборки - 57. Первая выборка получилась объёмом 29, вторая - 28 и обозначаются n1 и n2.
Так как генеральная выборка распределена нормально, её дисперсия неизвестна, а объём выборок n1 и n2 мал, то проверка проводится следующим образом.
Предположим, что генеральные дисперсии равны. В качестве критерия для проверки нулевой гипотезы 0: ( ) = ( ) служит случайная величина имеющая при справедливости нулевой гипотезы распределение Стьюдента с k = n + m - 2 степенями свободы. Наблюдаемое значение критерия вычисляется по формуле
Конкурирующая гипотеза 1: ( ) ? ( ). Это означает, что критическая область двусторонняя и задаётся неравенством |t| > tдвуст.кр., где tдвуст.кр.(б, k) находится из таблицы критических точек распределения Стьюдента или с помощью функции на листе Excel =СТЬЮДРАСПОБР(вероятность; степени_свободы).
Средние значения выборок и исправленные дисперсии находятся на листе Excel следующим образом:
Рисунок 25 Нахождение характеристик двух выборок
Далее находим tнабл. и tдвуст.кр.. За уровень значимости б принимаем значение 0,05.
Рисунок 26 Нахождение наблюдаемого значения и критической области Получаем следующие значения
Рисунок 27 Найденные значения для проверки гипотезы о равенстве МО
Подставляя найденные значения в неравенство, описанное выше, получаем: |-0,098215| < 2,00404, что означает, что наблюдаемое значение не входит в критическую область, нулевая гипотеза о равенстве математических ожиданий принимается, альтернативная - отвергается. При этом мы совершаем ошибку второго рода с вероятностью 5%. [см. 1]
3.4 Проверка гипотезы о равенстве дисперсий СВ полученных разделением исходных данных на две равные выборки
Пусть имеются две выборки объёмов n1 и n2, извлечённые из нормально распределённой генеральной совокупности. Необходимо проверить нулевую гипотезу о равенстве генеральных дисперсий рассматриваемых выборок:
0: ( ) = ( ).
- отношение большей исправленной дисперсии к меньшей, которая при условии справедливости нулевой гипотезы имеет распределение Фишера со степенями свободы k1 = n1 - 1 и k2 = n2 - 1, где n1 - объём выборки, имеющей большую критические точки находятся по таблице критических точек распределения Фишера или с помощью функции на листе Excel =FРАСПОБР(вероятность; k1; k2).
В противном случае нулевую гипотезу отвергают.
Нахождение критерия и критической области на листе Excel представлено на рисунке 28.
Рисунок 28 Нахождение критерия и критической области Используемая в формуле исправленная дисперсия была найдена в пункте 3.3
Значения критерия и критических точек представлены на рисунке 29.
Рисунок 29 Значения критерия и критических точек
Таким образом, 1,27277 ? [0,46734; 2,151179] что означает, что наблюдаемое значение входит в зону принятия гипотезы, нулевая гипотеза о равенстве дисперсий ожиданий принимается, альтернативная - отвергается. При этом мы совершаем ошибку второго рода с вероятностью 5%. [см. 1]
Заключение
В заключение можно отметить, что в данной работе был проведён анализ поведения финансовых индексов с помощью методов математической статистики на примере поведения цены акций ОАО «Русгидро». Эта работа актуальна, так как в современном мире очень часто появляется необходимость проанализировать поведение цен акций кокой-либо компании, чтобы понять, как они себя ведут и будут вести в будущем.
В ходе работы были рассмотрены первичный анализ данных, основные характеристики статистических данных и точечные оценки параметров распределения. Были выполнены все поставленные задачи и цель работы.
Весь процесс анализа, описанный в данной курсовой работе, сопровождался скриншотами рабочего листа Excel с пояснениями.
Список использованных источников
1. Белявский Г.И., Мисюра В.В. Математическая статистика (теория, практика, контрольная работа №8). Ростов-на-Дону: Ростовский государственый строительный университет, 2010. 71 с.
2. Ивченко Г.И., Медведев И.Ю. Введение в математическую статистику, Учебное пособие. М.: URSS, 2010. 310 с.
3. Кобзарь А. И. Прикладная математическая статистика. М.: ФИЗМАТЛИТ, 2008. 816 с.
4. А.С. Мазманишвили. Математическая статистика. Учебное пособие к практическим занятиям. Харьков: НТУ "ХПИ", 2003. 217 с.
5. Калинина В.Н., Панкин В.Ф. Математическая статистика. М.: Дрофа, 2002. 336 с.
Размещено на Allbest.ru
...Подобные документы
Статистический анализ курса Центрального банка валютной пары евро/рубль, построение соответствующих гистограмм. Выполнение описательной статистики выборочных данных, проверка гипотезы о нормальном распределении, равенстве средних и равенстве дисперсий.
курсовая работа [2,5 M], добавлен 08.07.2015Описание оборудования предприятия автосервиса. Построение интервального ряда экспериментального распределения. Проверка адекватности математической модели экспериментальным данным. Расчет значений интегральной и дифференциальной функции распределения.
курсовая работа [522,9 K], добавлен 03.12.2013Двойственные оценки как мера влияния ограничений на функционал. Построение экономико-математической модели задачи. Выявление аномальных уровней временного ряда с использованием метода Ирвина. Построение графика общих годовых затрат по выгодному способу.
контрольная работа [282,7 K], добавлен 16.01.2012Построение гистограммы и эмпирической функции распределения. Нахождение доверительного интервала для оценки математического распределения. Проверка статистической гипотезы о равенстве средних значений, дисперсий, их величине, о виде закона распределения.
курсовая работа [1,7 M], добавлен 29.11.2014Расчет уравнения линейной регрессии. Построение на экран графика и доверительной области уравнения. Разработка программы, генерирующей значения случайных величин, имеющих нормальный закон распределения для определения параметров уравнения регрессии.
лабораторная работа [18,4 K], добавлен 19.02.2014Формулы вычисления критерия Пирсона, среднего квадратического отклонения и значений функций Лапласа. Определение свойств распределения хи-квадрата. Критерий согласия Колмогорова-Смирнова. Построение графика распределения частот в заданном массиве.
контрольная работа [172,2 K], добавлен 27.02.2011Расчёт скользящего среднего методом математического усреднения цифровых величин согласно условию задач. Составление таблицы и построение графика полученных результатов расчета. Сравнительный анализ решений трех заданий, построение их общего графика.
лабораторная работа [26,9 K], добавлен 15.11.2010Роль статистических методов в объективной оценке количественных и качественных характеристик процесса управления. Использование инструментов качества при анализе процессов и параметров продукции. Дискретные случайные величины. Теория вероятности.
курсовая работа [1,5 M], добавлен 11.01.2015Построение интервального вариационного ряда распределения предприятий по объему реализации. Графическое изображение ряда (гистограмма, кумулята, огива). Расчет средней арифметической; моды и медианы; коэффициента асимметрии; показателей вариации.
контрольная работа [91,1 K], добавлен 10.12.2013Эконометрическая модель и исследование проблемы автокорреляции случайных отклонений с помощью тестов Бреуша-Годфри, Сведа-Эйзенхарта и статистики Дарбина-Уотсона. Связь между реальным и номинальным обменными курсами на примере белорусского рубля.
курсовая работа [483,8 K], добавлен 19.12.2011Построение рядов распределения с произвольными интервалами и с помощью формулы Стерджесса. Построение статистических графиков. Расчет и построение структурных характеристик вариационного ряда. Общая характеристика исследуемых статистических совокупностей.
курсовая работа [654,9 K], добавлен 12.04.2009Построение уравнения регрессии, учитывающего взаимодействия факторов, проверка полученной модели на адекватность. Построение математической модели и нахождение численных значений параметров этой модели. Вычисление коэффициентов линейной модели.
курсовая работа [1005,0 K], добавлен 07.08.2013Ковариация и коэффициент корреляции, пары случайных переменных. Вычисление их выборочных значений и оценка статистической значимости в Excel. Математическая мера корреляции двух случайных величин. Построение моделей парной и множественной регрессии.
контрольная работа [2,2 M], добавлен 24.12.2014Построение поля рассеяния, его визуальный анализ. Определение точечных оценок параметров методом наименьших квадратов. Расчет относительной ошибки аппроксимации. Построение доверительных полос для уравнения регрессии при доверительной вероятности У.
контрольная работа [304,0 K], добавлен 21.12.2013Построение вариационного (статистического) ряда, гистограммы и эмпирической функции распределения. Определение выборочных оценок числовых характеристик случайной величины. Расчет матрицы парных коэффициентов корреляции и создание модели парной регрессии.
контрольная работа [2,0 M], добавлен 05.04.2014Разработка алгоритма и программы на одном из алгоритмических языков для построения эмпирической плотности распределения случайных величин. Осуществление проверки гипотезы об идентичности двух плотностей распределения, используя критерий Пирсонга.
лабораторная работа [227,8 K], добавлен 19.02.2014Элементарные понятия о случайных событиях, величинах и функциях. Числовые характеристики случайных величин. Виды асимметрии распределений. Статистическая оценка распределения случайных величин. Решение задач структурно-параметрической идентификации.
курсовая работа [756,0 K], добавлен 06.03.2012Группировка предприятий по стоимости основных фондов, построение гистограммы распределения, определение моды графическим и аналитическими способами. Оценка объемов продаж товара методами математической статистики. Задача на экономические индексы.
задача [1,7 M], добавлен 03.02.2010Построение графиков сечений заданных поверхностей с помощью экспериментальных данных, полученных при моделировании электропотенциального поля в проводящей среде эквипотенциальных поверхностей. Построение графика распределения разностей потенциалов.
контрольная работа [160,0 K], добавлен 18.11.2013Характеристики и свойства условно-гауссовской модели ARCH для прогнозирования волатильности стоимости ценных бумаг. Акции предприятия на рынке ЦБ. Оценка параметров модели ARCH для прогнозирования их доходности методом максимального правдоподобия.
курсовая работа [161,5 K], добавлен 19.07.2014