Прикладная математика

Системы счисления, понятие множества. Операции над множествами. Графическое изображение множеств, диаграммы Эйлера-Венна. Таблицы истинности высказываний. Расчет бинарного отношения между множествами А и В. Частота появления значения случайной величины.

Рубрика Математика
Вид шпаргалка
Язык русский
Дата добавления 30.08.2017
Размер файла 1,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

D(X) = (x1 - M(X))2p1 + (x2 - M(X))2p2 + ... + (xn- M(X))2pn = x21p1 + x22p2 + ... + x2npn - [M(X)]2

Свойства дисперсии.

1) Дисперсия постоянной величины равна нулю: D(С) = 0

2) Постоянный множитель можно выносить за знак дисперсии, предварительно возведя его в квадрат:

D(СХ) = С2 · D(Х)

3) Дисперсия суммы (разности) независимых случайных величин равна сумме дисперсий слагаемых:

D(Х1 ± Х2 ± ... ± Хn) = D(Х1) + D(Х2) + ... + D(Хn)

Среднее квадратическое отклонение дискретной случайной величины, оно же стандартное отклонение или среднее квадратичное отклонение есть корень квадратный из дисперсии:

у(X) = vD(X)

31. Таблица случайных величин. Частота появления значения случайной величины

1. Гистограмма. Полигон распределения.

Для наглядности представления вариационного ряда большое значение имеют его графические изображения. Графически вариационный ряд может быть изображён в виде полигона, гистограммы.

Полигон распределения (дословно - многоугольник распределения) называют ломанную, которая строится в прямоугольной системе координат. Величина признака откладывается на оси абсцисс, соответствующие частоты (или относительные частоты ) - по оси ординат. Точки (или ) соединяют отрезками прямых и получают полигон распределения. Чаще всего полигоны применяются для изображения дискретных вариационных рядов, но их можно применять также и для интервальных рядов. В этом случае на оси абсцисс откладываются точки, соответствующие серединам данных интервалов.

Гистограммой распределения называют ступенчатую фигуру[26], состоящую из прямоугольников, основанием которых служат частичные интервалы длиною , а высоты пропорциональны частотам (или относительным частотам) и равны - плотность частоты (или - плотность относительной частоты). Для построения гистограммы на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии (или ). Заметим, что площадь гистограммы частот (относительных частот) равна сумме всех частот (относительных частот), то есть, равна объему выборки (то есть - единице).

2. Медиана и мода.

Модой дискретной случайной величины называют те ее возможное значение, которые соответствует наибольшей вероятности появления (т.е. такое значение величины , которое случается чаще всего при проведении экспериментов, опытов, наблюдений). В случае случайной величины модой называют то ее возможное значение, которому соответствует максимальное значение плотности вероятностей

В зависимости от вида функции случайная величина может иметь разное количество мод. Если случайная величина имеет одну моду, то такое распределение вероятностей называют одномодальным; если распределение имеет две моды -- двухмодальным и более - мультимодальным.

Существуют и такие распределения, которые не имеют моды, их называют антимодальными. Медианой случайной величины называют то ее значения, для которого выполняются равенство вероятностей событий, то есть, плотность вероятностей справа и слева одинаковы и равны половине (0,5)

Графически мода и медиана изображенные на рисунке

При таком значению случайной величины график функции распределения делится на части с одинаковой площадью. Непрерывная случайная величина имеет только одно значение медианы. Для дискретной случайной величины медиану обычно не определяют, однако в некоторой литературе приводятся правила, согласно которым, для ряда случайных величин размещенных в порядке возрастания (вариационного ряда) моду определяют распределения: если есть нечетное количество случайных величин то медиана равна средней величине

в случае четного количества полусумме средних величин

3. Среднее значение.

Средней арифметической величиной называется такое среднее значение признака, при вычислении которого общий объем признака (сумма значений признака) в изучаемой совокупности сохраняется неизменным. Иначе можно сказать, что средняя арифметическая величина - это среднее слагаемое, то есть при ее вычислении общий объем (сумма всех значений) признака мысленно распределяется поровну между всеми единицами совокупности. Исходя из определения, формула средней арифметической величины имеет вид

По этой формуле вычисляются средние величины первичных признаков, если известны индивидуальные (отдельные) значения признака. Если изучаемая совокупность велика, то исходная информация чаще представляет собой ряд распределения или группировку, как, например, следующая таблица, где приведен условный пример дискретного ряда распределения студентов по возрасту:

Возраст, Х

17

18

19

20

21

Число студентов, f

3

5

7

4

2

Средний возраст должен представлять собой результат равномерного распределения общего (суммарного) возраста всех студентов. Общий (суммарный) возраст всех студентов, согласно исходной информации в вышеприведенной таблице, можно получить как сумму произведений значений признака в каждой группе Xi, на число студентов с таким возрастом fi (частоты). Получим формулу:

Такую форму средней арифметической величины называют взвешенной арифметической средней. В качестве весов здесь выступают количество единиц совокупности (fi) в разных группах. Название «вес» выражает тот факт, что разные значения признака имеют неодинаковую «важность» при расчете средней величины. «Важнее», весомее возраст студентов 18, 19, 20 лет, а такие значения возраста как 17, 20 или 21 при расчете средней не играют большой роли - их «вес» мал. По формуле средней арифметической взвешенной по данным в условном примере получим:

Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменную сумму квадратов исходных величин, то средняя будет являться квадратической средней величиной. Ее формула следующая:

Аналогично, если по условиям задачи необходимо сохранить неизменной сумму кубов индивидуальных значений признака при их замене на среднюю величину, мы приходим к средней кубической величине, имеющей вид:

Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменным произведение индивидуальных величин, то следует применить геометрическую среднюю величину, имеющую следующий вид:

4. Равномерное распределение.

Определение. Непрерывная случайная величина Х имеет равномерное распределение на отрезке [а, в], если на этом отрезке плотность распределения вероятности случайной величины постоянна, т. е. если дифференциальная функция распределения f(х) имеет следующий вид:

Иногда это распределение называют законом равномерной плотности. Про величину, которая имеет равномерное распределение на некотором отрезке, будем говорить, что она распределена равномерно на этом отрезке.

Найдем значение постоянной с. Так как площадь, ограниченная кривой распределения и осью Ох, равна 1, то

откуда с=1/(b-a).

Теперь функцию f(x) можно представить в виде

Построим функцию распределения F(x), для чего найдем выражение F(x) на интервале [a, b]:

Графики функций f(x) и F(x) имеют вид:

Найдем числовые характеристики.

Используя формулу для вычисления математического ожидания НСВ, имеем:

Таким образом, математическое ожидание случайной величины, равномерно распределенной на отрезке [a, b] совпадает с серединой этого отрезка.

Найдем дисперсию равномерно распределенной случайной величины:

откуда сразу же следует, что среднее квадратическое отклонение:

Найдем теперь вероятность попадания значения случайной величины, имеющей равномерное распределение, на интервал (,), принадлежащий целиком отрезку [a, b]

Геометрически эта вероятность представляет собой площадь заштрихованного прямоугольника. Числа а и b называются параметрами распределения и однозначно определяют равномерное распределение.

5. Распределение Бернулли.

Пусть производится независимых испытаний, в каждом из которых событие может появиться либо не появиться. Вероятность наступления события во всех испытаниях постоянна и равна (следовательно, вероятность непоявления )- Рассмотрим в качестве дискретной случайной величины число появлений события в этих испытаниях.

Поставим перед собой задачу: найти закон распределения величины . Для ее решения требуется определить возможные значения и их вероятности. Очевидно, событие в испытаниях может либо не появиться, либо появиться 1 раз, либо 2 раза, ..., либо раз. Таким образом, возможные значения таковы: . Остается найти вероятности этих возможных значений, для чего достаточно воспользоваться формулой Бернулли:

(5.1)

где

Формула (5.1) и является аналитическим выражением искомого закона распределения.

Биномиальным называют распределение вероятностей, определяемое формулой Бернулли. Закон назван «биномиальным» потому, что правую часть равенства (5.1) можно рассматривать как общий член разложения бинома Ньютона:

Таким образом, первый член разложения определяет вероятность наступления рассматриваемого события раз в независимых испытаниях; второй член определяет вероятность наступления события раз; ... ; последний член определяет вероятность того, что событие не появится ни разу.

Напишем биномиальный закон в виде таблицы:

6. Распределение Пуассона.

Пусть производится независимых испытаний, в каждом из которых вероятность появления события равна . Для определения вероятности появлений события в этих испытаниях используют формулу Бернулли. Если же велико, то пользуются асимптотической формулой Лапласа. Однако эта формула непригодна, если вероятность события мала (). В этих случаях ( велико, мало) прибегают к асимптотической формуле Пуассона.

Итак, поставим перед собой задачу найти вероятность того, что при очень большом числе испытаний, в каждом из которых вероятность события очень мала, событие наступит ровно раз. Сделаем важное допущение: произведение сохраняет постоянное значение, а именно . Как будет следовать из дальнейшего, это означает, что среднее число появлений события в различных сериях испытаний, т.е. при различных значениях , остается неизменным.

Воспользуемся формулой Бернулли для вычисления интересующей нас вероятности:

Так как , то . Следовательно,

Приняв во внимание, что имеет очень большое значение, вместо найдем . При этом будет найдено лишь приближенное значение отыскиваемой вероятности: хотя и велико, но конечно, а при отыскании предела мы устремим к бесконечности. Заметим, что поскольку произведение сохраняет постоянное значение, то при вероятность .

Итак,

Таким образом (для простоты записи знак приближенного равенства опущен),

Эта формула выражает закон распределения Пуассона вероятностей массовых ( велико) и редких ( мало) событий.

32. Нормальный закон распределения

Нормальный закон распределения играет в теории вероятностей особую роль. Он является наиболее часто встречающимся на практике законом распределения вероятностей. Нормальному распределению приближенно подчиняется сумма достаточно большого числа независимых случайных величин, описываемых какими угодно законами распределения. Приближение выполняется тем точнее, чем большее количество случайных величин суммируется. А большинство встречающихся на практике величин, таких, например, как ошибки измерений, ошибки стрельбы, могут быть представлены как суммы большого числа малых слагаемых - элементарных ошибок, каждая из которых вызвана отдельной независимой причиной. Особенности отдельных законов распределения нивелируются в общей сумме и эта сумма оказывается подчинена закону, близкому к нормальному. Главное, чтобы элементарные ошибки играли в общей сумме сравнительно малую роль.

Центральная предельная теорема. Если случайная величина Х представляет собой сумму очень большого числа взаимно независимых случайных величин, влияние каждой из которых на всю сумму ничтожно мало, то Х имеет распределение, близкое к нормальному.

Дадим определение нормального распределения случайной величины.

Говорят, что случайная величина Х распределена по нормальному закону с параметрами а и , если плотность распределения вероятностей имеет вид:

, -<t<.

Вероятностный смысл параметров а и таков: а - математическое ожидание случайной величины Х, - среднее квадратическое отклонение величины.

Иногда такой закон распределения называют Гауссовским. График плотности нормального распределения называют нормальной кривой (кривой Гаусса). На рис. 6.11 изображены нормальные кривые с параметрами а=1 и , , .

Рис. 6.11

Из рис. 6.11 видно, что положение пика кривых определяется параметром а=1, а параметр (среднее квадратическое отклонение) характеризует форму нормальной кривой. При увеличении уменьшается максимум кривой распределения, сама кривая становится более пологой, растягиваясь вдоль оси абсцисс. И, наоборот, при уменьшении возрастает максимум кривой распределения, сама кривая становится более «островершинной». Площадь, ограниченная любой нормальной кривой и осью абсцисс, равна единице. Параметр а (математическое ожидание величины) определяет положение максимума на оси абсцисс, не влияя на форму кривой. На рис. 6.12 показаны нормальные кривые с одинаковым средним квадратическим отклонением и разными математическими ожиданиями а=-1, а=0, а=1.

Рис. 6.12

Нормальное распределение с параметрами а=0 и называется нормированным. Плотность нормированного распределения

.

Значения этой функции на отрезке [0:3] с шагом 0,01 приведены в таблице

Распределение .

Распределение Пирсона (хи - квадрат) - распределение случайной величины

где случайные величины X1, X2,…, Xn независимы и имеют одно и тоже распределение N(0,1). При этом число слагаемых, т.е. n, называется «числом степеней свободы» распределения хи - квадрат.

Распределение хи-квадрат используют при оценивании дисперсии (с помощью доверительного интервала), при проверке гипотез согласия, однородности, независимости, прежде всего для качественных (категоризованных) переменных, принимающих конечное число значений, и во многих других задачах статистического анализа данных.

33. Объем генеральной совокупности и выборки

Основу статистического исследования составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой, а гипотетически существующая (домысливаемая) -- генеральной совокупностью. Генеральная совокупность может быть конечной (число наблюдений N = const) или бесконечной (N = ?), а выборка из генеральной совокупности -- это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки. Если объем выборки достаточно велик (n > ?) выборка считается большой, в противном случае она называется выборкой ограниченного объема. Выборка считается малой, если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30), а при измерении одновременно нескольких (k) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10). Выборка образует вариационный ряд, если ее члены являются порядковыми статистиками, т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами.

Пример. Практически одна и та же случайно отобранная совокупность объектов -- коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

34. Случайный выбор. Репрезентативность

Основные понятия выборочного метода:

- Генеральная совокупность - множество объектов, которые являются предметом исследования, определенным программой исследования, территориальными и временными границами. Всегда есть признак (набор признаков), по значению которого можно однозначно определить, относится данный объект к генеральной совокупности или нет.

- Выборочная совокупность (выборка) - число объектов генеральной совокупности, выступающих в качестве объектов наблюдения.

- Единица отбора - элемент генеральной совокупности, который выступает единицей счета в различных процедурах отбора при формировании выборки.

- Единица наблюдения - элемент выборочной совокупности, который непосредственно подвергается исследованию (наблюдению). Единица наблюдения и единица отбора могут совпадать и не совпадать.

- Репрезентативность выборки - свойство выборки адекватно отражать, моделировать характеристики генеральной совокупности.

К условиям репрезентативности выборки относятся:

- Правильное определение объема выборки;

- Минимизация ошибок выборки;

- Применение адекватных методов отбора (построения выборки).

Рассмотрим процедуру определения объема выборки. Объем выборки определяется тремя факторами:

1. степень однородности изучаемых объектов по значимым для исследования характеристикам;

2. целесообразный уровень надежности выводов исследования;

3. степень дробности группировок анализа, планируемых для решения задач исследования;

Роль первых двух условий очевидна, если рассмотреть формулу для определения объема выборки (1). Здесь степень однородности изучаемых объектов по значимым для исследования характеристикам отражена как дисперсия признака в генеральной совокупности, а целесообразный уровень надежности выводов исследования - как задаваемая исследователем предельная ошибка выборки. Данная формула (для повторного отбора) применяется для больших генеральных совокупностей.

n = у2 / м2 = t2 у2 / ?2 (1)

где у2 - дисперсия признака в генеральной совокупности

м - средняя ошибка выборки

t - коэффициент доверия (критерий Стьюдента), t = ? / м

? - предельная ошибка выборки (величина доверительного интервала)

Как правило, у2 не известна. Вместо нее в формулу можно подставить ее оценку s2, вычисленную по результатам пилотажного исследования объемом n*<n:

s2 = (n* у2) / (n* - 1)

s2 вычисляется по каждому вопросу анкеты и для определения объема выборки берется наибольшая величина.

В реальных исследованиях применяется и формула (2) для бесповторного отбора:

n = t2 у2 N / (?2 N + t2 у2) (2)

где N - объем генеральной совокупности.

Необходимо помнить, что исследования проводятся с различными целями, и не всегда требуется особо высокая точность (стандартная 5% ошибка выборки). Чем меньшая точность необходима (то есть чем больше допустимая ошибка выборки), тем меньшим может быть объем выборки (и соответственно, дешевле исследование). В практической работе можно пользоваться эмпирическими таблицами, которые отражают зависимость между объемом генеральной совокупности, объемом выборки и предельной ошибкой выборки

35. Идея выборочного распределения

Рассмотрим реализацию выборки на одном элементарном исходе -- набор чисел , , . На подходящем вероятностном пространстве введем случайную величину , принимающую значения , , с вероятностями по (если какие-то из значений совпали, сложим вероятности соответствующее число раз). Таблица распределения вероятностей и функция распределения случайной величины выглядят так:

Распределение величины называют эмпирическим или выборочным распределением. Вычислим математическое ожидание и дисперсию величины и введем обозначения для этих величин:

Точно так же вычислим и момент порядка

В общем случае обозначим через величину

Если при построении всех введенных нами характеристик считать выборку , , набором случайных величин, то и сами эти характеристики -- , , , , -- станут величинами случайными. Эти характеристики выборочного распределения используют для оценки (приближения) соответствующих неизвестных характеристик истинного распределения.

Причина использования характеристик распределения для оценки характеристик истинного распределения (или ) -- в близости этих распределений при больших .

Рассмотрим, для примера, подбрасываний правильного кубика. Пусть -- количество очков, выпавших при -м броске, . Предположим, что единица в выборке встретится раз, двойка -- раз и т.д. Тогда случайная величина будет принимать значения 1, , 6 с вероятностями , , соответственно. Но эти пропорции с ростом приближаются к согласно закону больших чисел. То есть распределение величины в некотором смысле сближается с истинным распределением числа очков, выпадающих при подбрасывании правильного кубика.

36. Статистическое распределение выборки

Статистическим распределением выборки или вариационным рядом называется перечень вариант (в возрастающем порядке) и соответствующих им частот (относительных частот). При этом вариантаминазываютсявсевозможные значения генеральной совокупности.

Например, пусть рассматривается выборка, причем: признак Х1 встречается n1 раз; признак Х2 встречается n2 раз; …; признак Хk встречается nk раз.

Если количество вариантов слишком велико или близко к объему выборки, то целесообразно составить вариационный ряд по группированным данным.

37. Виды статистических оценок

Пусть требуется изучить некоторый количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак и необходимо оценить параметры, которыми оно определяется. Например, если изучаемый признак распределен в генеральной совокупности нормально, то нужно оценить математическое ожидание и среднее квадратическое отклонение; если признак имеет распределение Пуассона - то необходимо оценить параметр l.

Обычно имеются лишь данные выборки, например значения количественного признака , полученные в результате n независимых наблюдений. Рассматривая как независимые случайные величины можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения - это значит найти функцию от наблюдаемых случайных величин, которая дает приближенное значение оцениваемого параметра. Например, для оценки математического ожидания нормального распределения роль функции выполняет среднее арифметическое:

Для того чтобы статистические оценки давали корректные приближения оцениваемых параметров, они должны удовлетворять некоторым требованиям, среди которых важнейшими являются требования несмещенности и состоятельности оценки.

Пусть - статистическая оценка неизвестного параметра теоретического распределения. Пусть по выборке объема n найдена оценка . Повторим опыт, т.е. извлечем из генеральной совокупности другую выборку того же объема и по ее данным получим другую оценку . Повторяя опыт многократно, получим различные числа . Оценку можно рассматривать, как случайную величину, а числа - как ее возможные значения.

Если оценка дает приближенное значение с избытком, т.е. каждое число больше истинного значения то, как следствие, математическое ожидание (среднее значение) случайной величины больше, чем :

.

Аналогично, если дает оценку с недостатком, то .

Таким образом, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, привело бы к систематическим (одного знака) ошибкам. Если, напротив, , то это гарантирует от систематических ошибок.

Несмещенной называют статистическую оценку , математическое ожидание которой равно оцениваемому параметру при любом объеме выборки .

Смещенной называют оценку, не удовлетворяющую этому условию.

Несмещенность оценки еще не гарантирует получения хорошего приближения для оцениваемого параметра, так как возможные значения могут быть сильно рассеяны вокруг своего среднего значения, т.е. дисперсия может быть значительной. В этом случае найденная по данным одной выборки оценка, например , может оказаться значительно удаленной от среднего значения , а значит, и от самого оцениваемого параметра.

Эффективной называют статистическую оценку, которая, при заданном объеме выборки n, имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема к статистическим оценкам предъявляется требование состоятельности.

Состоятельной называется статистическая оценка, которая при n®Ґ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при n®Ґ стремится к нулю, то такая оценка оказывается и состоятельной.

38. Доверительный интервал

Доверительным называется интервал, который с заданной надежностью покрывает оцениваемый параметр.

Для оценки математического ожидания случайной величины , распределенной по нормальному закону, при известном среднем квадратическом отклонении служит доверительный интервал

где - точность оценки, - объем выборки, - выборочное среднее, - аргумент функции Лапласа, при котором

Пример. Найти доверительный интервал для оценки с надежностью 0,9 неизвестного математического ожидания нормально распределенного признака генеральной совокупности, если среднее квадратическое отклонение , выборочная средняя и объем выборки .

Решение. Требуется найти доверительный интервал

Все величины, кроме , известны. Найдем из соотношения

.

По таблице приложения находим и получаем доверительный интервал

.

Если среднее квадратическое отклонение неизвестно, то для оценки служит доверительный интервал

где находится в приложении 4 по заданным и , а вместо часто бывает возможно подставить любую из оценок

- исправленное среднеквадратическое, статистическое среднеквадратическое отклонения соответственно. При увеличении обе оценки и будут различаться сколь угодно мало и будут сходиться по вероятностям к одной и той же величине .

39. Доверительная вероятность

Под доверительным интервалом понимают случайный интервал, который с некоторой вероятностью б накрывает истинное значение искомого параметра:

Вероятность б называют доверительной вероятностью. Она характеризует достоверность (надежность), а доверительный интервал длиной 2г - точность определения неизвестного значения параметра Q x с помощью оценки Q *x.

Поясним смысл доверительного интервала. С этой целью выражение (5.18) перепишем в виде

Поскольку оценка Q *x - величина случайная, то Q *x - г и Q *x + y также величины случайные, являющиеся границами интервала, который накрывает неизвестное значение оцениваемого параметра Q x.

Очевидно, что при фиксированной доверительной вероятности а, чем уже доверительный интервал (чем меньше его полуразмах -у), тем точнее будет оценен неизвестный параметр Q x. Чем больше доверительная вероятность а при фиксированной длине доверительного интервала, тем надежнее будет произведено оценивание параметра Q x.

Предположим, что для оценивания некоторого параметра Q x проведено n испытаний, по результатам которых получена точечная оценка Q *x этого параметра. Затем найдены левая (Q *x - y) и правая (Q *x + y) границы интервала. Еще раз проводят n испытаний. По результатам этой серии испытаний вновь находят оценку Q *x и строят доверительный интервал. Пусть произведено десять таких серий по n испытаний в каждой серии. Соответствующие доверительные интервалы нанесены на горизонтальные линии рис. 5.5.

Восемь интервалов из десяти накрыли точку Q x а интервалы, полученные в 3-й и 6-й сериях, не накрыли Q x Таким образом, частота события равна 0,8. При увеличении числа серий по n испытаний в каждой частота указанного события будет устойчиво колебаться около доверительной вероятности а.

До сих пор рассматривался так называемый симметричный доверительный интервал, т.е. интервал, границы которого равноудалены от полученного значения оценки Q *x Однако в практике оценивания используют и несимметричные интервалы. У несимметричных интервалов левая граница удалена от значения оценки на величину г2, а правая - на г1 (г1 ? г2). Длина доверительного интервала равна (г1 + г2). В этом случае выражение для доверительной вероятности запишем в виде

Условию (5.20) при фиксированной вероятности а удовлетворяет бесчисленное множество пар значений г1 и г2.

Предположим, что плотность распределения случайной величины Y = Q *x - Q x имеет вид, представленный на рис. 5.6.

На этом же рисунке показаны два интервала, соответствующие одной и той же вероятности

Для устранения указанной неоднозначности используют два способа. Один из них основан на выборе таких значений г1 и г2, при которых обеспечивается симметрия в распределении вероятности (1 - б), т.е. значений, удовлетворяющих условию

Такие значения г2 и г1 показаны на рис. 5.7 при несимметричном распределении случайной величины Y.

Доверительный интервал, выбранный таким способом, называют центральным.

40. Зависимые и независимые случайные величины

Случайные величины называются независимыми, если закон распределения одной из них не зависит от того, какое значение принимает другая случайная величина.

Понятие зависимости случайных величин является очень важным в теории вероятностей.

Условные распределения независимых случайных величин равны их безусловным распределениям.

Определим необходимые и достаточные условия независимости случайных величин.

Теорема. Для того чтобы случайные величины Х и Y были независимы, необходимо и достаточно, чтобы функция распределения системы была равна произведению функций распределения составляющих.

Аналогичную теорему можно сформулировать и для плотности распределения:

Теорема. Для того чтобы случайные величины Х и Y были независимы, необходимо и достаточно, чтобы плотность совместного распределения системы была равна произведению плотностей распределения составляющих.

Корреляционным моментом случайных величин Х и Y называется математическое ожидание произведения отклонений этих величин.

Практически используются формулы:

Для дискретных случайных величин:

Для непрерывных случайных величин:

Корреляционный момент служит для того, чтобы охарактеризовать связь между случайными величинами. Если случайные величины независимы, то их корреляционный момент равен нулю.

Корреляционный момент имеет размерность, равную произведению размерностей случайных величин Х и Y. Этот факт является недостатком этой числовой характеристики, т.к. при различных единицах измерения получаются различные корреляционные моменты, что затрудняет сравнение корреляционных моментов различных случайных величин.

Для того, чтобы устранить этот недостаток применятся другая характеристика - коэффициент корреляции.

41. Коэффициент корреляции

Коэффициентом корреляции случайных величин Х и Y называется отношение корреляционного момента к произведению средних квадратических отклонений этих величин.

Коэффициент корреляции является безразмерной величиной. Коэффициент корреляции независимых случайных величин равен нулю.

Свойство: Абсолютная величина корреляционного момента двух случайных величин Х и Y не превышает среднего геометрического их дисперсий.

Свойство: Абсолютная величина коэффициента корреляции не превышает единицы.

Случайные величины называются коррелированными, если их корреляционный момент отличен от нуля, и некоррелированными, если их корреляционный момент равен нулю.

Если случайные величины независимы, то они и некоррелированы, но из некоррелированности нельзя сделать вывод о их независимости.

Если две величины зависимы, то они могут быть как коррелированными, так и некоррелированными.

Часто по заданной плотности распределения системы случайных величин можно определить зависимость или независимость этих величин.

Наряду с коэффициентом корреляции степень зависимости случайных величин можно охарактеризовать и другой величиной, которая называется коэффициентом ковариации. Коэффициент ковариации определяется формулой:

42. Регрессия

Линия регрессии

Математическое уравнение, которое оценивает линию простой (парной) линейной регрессии:

Y=a+bx.

x называется независимой переменной или предиктором.

Y - зависимая переменная или переменная отклика. Это значение, которое мы ожидаем для y (в среднем), если мы знаем величину x, т.е. это «предсказанное значение y»

· a - свободный член (пересечение) линии оценки; это значение Y, когда x=0 (Рис.1).

· b - угловой коэффициент или градиент оценённой линии; она представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем x на одну единицу.

· a и b называют коэффициентами регрессии оценённой линии, хотя этот термин часто используют только для b.

Парную линейную регрессию можно расширить, включив в нее более одной независимой переменной; в этом случае она известна как множественная регрессия.

Предположения линейной регрессии

Итак, для каждой наблюдаемой величины остаток равен разнице и соответствующего предсказанного Каждый остаток может быть положительным или отрицательным.

Можно использовать остатки для проверки следующих предположений, лежащих в основе линейной регрессии:

· Между и существует линейное соотношение: для любых пар данные должны аппроксимировать прямую линию. Если нанести на двумерный график остатки, то мы должны наблюдать случайное рассеяние точек, а не какую-либо систематическую картину.

· Остатки нормально распределены с нулевым средним значением;

· Остатки имеют одну и ту же вариабельность (постоянную дисперсию) для всех предсказанных величин Если нанести остатки против предсказанных величин от мы должны наблюдать случайное рассеяние точек. Если график рассеяния остатков увеличивается или уменьшается с увеличением то это допущение не выполняется;

Если допущения линейности, нормальности и/или постоянной дисперсии сомнительны, мы можем преобразовать или и рассчитать новую линию регрессии, для которой эти допущения удовлетворяются (например, использовать логарифмическое преобразование или др.).

Аномальные значения (выбросы) и точки влияния

"Влиятельное" наблюдение, если оно опущено, изменяет одну или больше оценок параметров модели (т.е. угловой коэффициент или свободный член).

Выброс (наблюдение, которое противоречит большинству значений в наборе данных) может быть "влиятельным" наблюдением и может хорошо обнаруживаться визуально, при осмотре двумерной диаграммы рассеяния или графика остатков.

И для выбросов, и для "влиятельных" наблюдений (точек) используют модели, как с их включением, так и без них, обращают внимание на изменение оценки (коэффициентов регрессии).

При проведении анализа не стоит отбрасывать выбросы или точки влияния автоматически, поскольку простое игнорирование может повлиять на полученные результаты. Всегда изучайте причины появления этих выбросов и анализируйте них.

Гипотеза линейной регрессии

При построении линейной регрессии проверяется нулевая гипотеза о том, что генеральный угловой коэффициент линии регрессии в равен нулю.

Если угловой коэффициент линии равен нулю, между и нет линейного соотношения: изменение не влияет на

Для тестирования нулевой гипотезы о том, что истинный угловой коэффициент равен нулю можно воспользоваться следующим алгоритмом:

Вычислить статистику критерия, равную отношению , которая подчиняется распределению с степенями свободы, где стандартная ошибка коэффициента

,

- оценка дисперсии остатков.

Обычно если достигнутый уровень значимости нулевая гипотеза отклоняется.

Можно рассчитать 95% доверительный интервал для генерального углового коэффициента :

где процентная точка распределения со степенями свободы что дает вероятность двустороннего критерия

Это тот интервал, который содержит генеральный угловой коэффициент с вероятностью 95%.

Для больших выборок, скажем, мы можем аппроксимировать значением 1,96 (то есть статистика критерия будет стремиться к нормальному распределению)

43. Построение линейной корреляции

Корреляционная зависимость между случайными величинами Х и У называется линейной корреляцией, если обе функции регрессии f(y) и g(x) являются линейными. В этом случае линии регрессии- прямые и называются прямыми регрессии.

Выведем уравнение прямой регрессии У на Х, т.е. найдем коэффициенты линейной функции g(x) = AX +B.

Введем обозначения

М(Х) =а, М(У) =b, D(X) =12, D(Y) ==22, М(ХУ) - М(Х)М(У) = .

Используем свойства математического ожидания:

М(У) =М(g(x))= M(AX +B) = AM(X) +B, тогда B = b - Aa.

M(XY) = M(Xg(x)) = M(AX 2 + BX ) = AM(X2) + BM(X) AM(X2) + (b - Aa)a,

откуда

- называется коэффициентом регрессии У на Х. Уравнение прямой регрессии У на Х имеет вид :

Аналогично получим уравнение прямой регрессии Х на У :

Выразим коэффициенты регрессии через коэффициент корреляции:

Тогда уравнения примут вид:

Обе прямые проходят через общую точку (a; b) , угловые коэффициенты прямых регрессии равны:

для прямой регрессии У на Х -

для прямой регрессии Х на У -

Чем ближе | r | к единице, тем меньше угол между прямыми регрессии, и только в случае | r | =1 прямые сливаются.

Коэффициент корреляции связан с коэффициентами регрессии соотношением:

44. Оценки числовых характеристик генеральной совокупности

Основными параметрами генеральной совокупности являются математическое ожидание (генеральная средняя) М(Х) и среднее квадратическое отклонение s. Это постоянные величины, которые можно оценить по выборочным данным. Оценка генерального параметра, выражаемая одним числом, называется точечной.

Точечной оценкой генеральной средней является выборочное среднее .

Выборочным средним называется среднее арифметическое значение признака выборочной совокупности.

Если все значения x1, x2,..., xn признака выборки различны (или если данные не сгруппированы), то:

Если же все значения признака x1, x2,..., xn имеют соответственно частоты n1, n2,..., nk, причем n1 + n2 +...+ nk = n (или если выборочное среднее вычисляется по вариационному ряду), то

В том случае, когда статистические данные представлены в виде интервального вариационного ряда, при вычислении выборочного среднего значениями вариант считают середины интервалов.

Выборочное среднее является основной характеристикой положения, показывает центр распределения совокупности, позволяет охарактеризовать исследуемую совокупность одним числом, проследить тенденцию развития, сравнить различные совокупности (выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0).

Для оценки степени разброса (отклонения) какого-то показателя от его среднего значения, наряду с максимальным и минимальным значениями, используются понятия дисперсии и стандартного отклонения.

Дисперсия выборки или выборочная дисперсия (от английского variance) - это мера изменчивости переменной. Термин впервые введен Фишером в 1918 году.

Выборочной дисперсией Dв называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения x1, x2,..., xn признака выборки объема n различны, то:

Если же все значения признака x1, x2,..., xn имеют соответственно частоты n1, n2,..., nk, причем n1 + n2 +...+ nk = n, то

Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны.

Среднее квадратическое отклонение (стандартное отклонение), (от английского standard deviation) вычисляется как корень квадратный из дисперсии.

Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего.

Непараметрическими характеристиками положения являются мода и медиана.

Модой Mo называется варианта, имеющая наибольшую частоту или относительную частоту.

Медианой Me называется варианта, которая делит вариационный ряд на две части, равные по числу вариант.

При нечетном числе вариант (n=2k+1)

Me = xk+1,

а при четном числе вариант (n=2k)

Me = (xk + xk+1)/2.

45. Статистические гипотезы

Статистической называют гипотезу о виде неизвестного распределения или о параметрах известных распределений. Выдвигается основная (нулевая) гипотеза и проверяется, не противоречит ли она имеющимся эмпирическим данным. Конкурирующей (альтернативной) называют гипотезу , которая противоречит нулевой.

В результате статистической проверки гипотезы могут быть допущены ошибки двух родов. Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза; вероятность совершить такую ошибку обозначают и называют ее уровнем значимости. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза, вероятность которой обозначают , а мощностью критерия является вероятность .

Процедура обоснованного сопоставления высказанной гипотезы с имеющейся выборкой осуществляется с помощью того или иного статистического критерия и называется статистической проверкой гипотез. Под критической областью понимают совокупность значений критерия, при которых нулевую гипотезу отвергают. Критическую область при заданном уровне значимости следует строить так, чтобы мощность критерия была максимальной.

Статистические критерии проверки гипотез разнообразны, но у них единая логическая схема построения, которую представим на рис. 103.

Рис. 103

46. Статистические критерии оценки гипотез

1. Сравнение двух дисперсий нормальных генеральных совокупностей. При заданном уровне значимости проверяется нулевая гипотеза, состоящая в том, что генеральные дисперсии рассматриваемых совокупностей равны между собой:

В качестве критерия проверки нулевой гипотезы принимают случайную величину отношения большей исправленной дисперсии к меньшей

Величина имеет распределение Фишера-Снедекора, которое зависит только от чисел степеней свободы и .

2. Сравнение двух средних нормальных генеральных совокупностей с известными дисперсиями. Проверяется нулевая гипотеза о равенстве генеральных средних рассматриваемых совокупностей с заданными или вычисляемыми дисперсиями. В качестве критерия проверки нулевой гипотезы примем случайную величину

3. Сравнение выборочной средней с гипотетической генеральной средней нормальной совокупности. По выборочной средней при заданном уровне значимости проверяется нулевая гипотеза о равенстве генеральной средней гипотетическому значению . В качестве проверки нулевой гипотезы примем случайную величину

которая распределена нормально.

4. Сравнение наблюдаемой относительной частоты с гипотетической вероятностью появления события. При заданном уровне значимости проверяется нулевая гипотеза, состоящая в том, что неизвестная вероятность появления события равна гипотетической вероятности серии повторных независимых испытаний.

В качестве критерия проверки нулевой гипотезы принимаем случайную величину

Размещено на Allbest.ru

...

Подобные документы

  • Множеством именуется некоторая совокупность элементов, объединенных по какому-либо признаку. Над множествами определяют операции, во многом сходные с арифметическими. Операции над множествами интерпретируют геометрически с помощью диаграмм Эйлера-Венна.

    реферат [15,8 K], добавлен 03.02.2009

  • Определение понятия множеств Г. Кантора, их примеры и обозначения. Способы задания, включение и равенство множеств, операции над ними: объединение, пересечения, разность, дополнение, их определение и наглядное представление на диаграмме Эйлера-Венна.

    реферат [70,9 K], добавлен 11.03.2009

  • Понятие множества, его трактование Георгом Кантором. Условные обозначения множеств. Виды множеств, способы их задания. Операции над множествами (пересечение, объединение, разность и дополнение), условия их равенства и основные свойства, отношения.

    презентация [1,2 M], добавлен 12.12.2012

  • Предпосылки развития алгебры множеств. Основы силлогистики и соотношение между множествами. Применение и типы жергонновых отношений. Понятие пустого множества и универсума. Построение диаграмм Эйлера и обоснование законов транзитивности и контрапозиции.

    контрольная работа [369,0 K], добавлен 03.09.2010

  • Понятие множества и его элементов. Обозначение принадлежности элемента множеству. Конечные и бесконечные множества. Строгое и нестрогое включение. Способы задания множеств. Равенство множеств и двухсторонее включение. Диаграммы Венна для трех множеств.

    презентация [564,8 K], добавлен 23.12.2013

  • Типичные примеры рефлексивных бинарных отношений. Понятие множества и его элементов. Операции над множествами: объединение, пересечение и разность. Декартово произведение множеств. Отношения функциональные, эквивалентности, порядка. Отношения степени n.

    контрольная работа [163,2 K], добавлен 08.11.2009

  • Нечёткие системы логического вывода. Исследование основных понятий теории нечетких множеств. Операции над нечёткими множествами. Нечёткие соответствия и отношения. Описания особенностей логических операций: конъюнкции, дизъюнкции, отрицания и импликации.

    презентация [191,0 K], добавлен 29.10.2013

  • Доказательство тождества с помощью диаграмм Эйлера-Венна. Определение вида логической формулы с помощью таблицы истинности. Рисунок графа G (V, E) с множеством вершин V. Поиск матриц смежности и инцидентности. Определение множества вершин и ребер графа.

    контрольная работа [463,0 K], добавлен 17.05.2015

  • Множество как ключевой объект математики, теории множеств и логики. Операции над множествами, числовые последовательности. Множества действительных чисел. Бесконечно малые и большие функции. Непрерывность функции в точке. Свойства непрерывных функций.

    лекция [540,0 K], добавлен 25.03.2012

  • Изобретение Леонардом Эйлером геометрической схемы, с помощью которой можно изобразить отношения между подмножествами. Изучение частного случая кругов Эйлера — диаграммы Эйлера—Венна, изображающей все 2^n комбинаций n свойств (конечную булеву алгебру).

    презентация [595,0 K], добавлен 16.02.2015

  • Понятие множества, его обозначения. Операции объединения, пересечения и дополнения множеств. Свойства счетных множеств. История развития представлений о числе, появление множества натуральных, рациональных и действительных чисел, операции с ними.

    курсовая работа [358,3 K], добавлен 07.12.2012

  • Проверка справедливости тождеств или включений с использованием алгебры множеств и диаграмм Эйлера-Венна. Изображение графа и матрицы отношения, обладающего свойствами рефлексивности, транзитивности и антисиммеричности. Изучение неориентированного графа.

    контрольная работа [1,3 M], добавлен 05.05.2013

  • Алгоритм построения многочлена Жегалкина по совершенной дизъюнктивной нормальной форме. Диаграмма Эйлера-Венна, изображение универсального множества и подмножества. Проверка самодвойственности, монотонности и линейности логической функции двух переменных.

    контрольная работа [227,5 K], добавлен 20.04.2015

  • Свойства операций над множествами. Формулы алгебры высказываний. Функции алгебры логики. Существенные и фиктивные переменные. Проверка правильности рассуждений. Алгебра высказываний и релейно-контактные схемы. Способы задания графа. Матрицы для графов.

    учебное пособие [1,5 M], добавлен 27.10.2013

  • Сущность теории множеств и особенности ее практического применения. Операции над множествами и их главные закономерности. Порядок нахождения области определения функции, участков ее возрастания и убывания. Определение вероятности исследуемого действия.

    контрольная работа [46,5 K], добавлен 02.12.2011

  • Определение понятия множества как совокупности некоторых объектов, объединенных по какому-либо признаку. Классификация операций над множествами. Принципы взаимно однозначного соответствия. Нахождение наибольшего общего делителя и наименьшего кратного.

    презентация [249,6 K], добавлен 24.09.2011

  • Бинарные отношения на множестве. Рефлективность, примеры рефлективности. Симметричность, транзитивность, отношение порядка. Примеры дестрибутивных и недестребутивных решеток. Основные определения и свойства теории структур. Операции над множествами.

    курсовая работа [64,0 K], добавлен 04.06.2015

  • Градусная и радианная мера угла. Функция как соотношение между двумя числовыми множествами, размерность числового множества. Понятие множества значений некоторого угла. Элементарные тригонометрические функции произвольного угла: синус, косинус, тангенс.

    реферат [239,9 K], добавлен 19.08.2009

  • История возникновения булевой алгебры, разработка системы исчисления высказываний. Методы установления истинности или ложности сложных логических высказываний с помощью алгебраических методов. Дизъюнкция, конъюнкция и отрицание, таблицы истинности.

    презентация [1,9 M], добавлен 22.02.2014

  • Понятие метрического и топологического пространства. Расстояние между множествами. Диаметр множества. Непрерывные отображения. Гомеоморфизм. Вектор-функция скалярного аргумента. Понятия пути и кривой. Гладкая и регулярная кривая, замена параметра.

    курс лекций [134,0 K], добавлен 02.06.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.