Статистическое оценивание
Ошибки выборочных статистических показателей, их теоретическое объяснение. Основные задачи статистического оценивания. Смещенные и несмещенные оценки. Ошибки статистик и их определение. Доверительный вариант. Ошибка суммы или разности средних значений.
Рубрика | Математика |
Вид | лекция |
Язык | русский |
Дата добавления | 29.03.2018 |
Размер файла | 341,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
25
Размещено на http://www.allbest.ru/
Статистическое оценивание
Содержание
- 1. Ошибки выборочных статистических показателей. Их теоретическое объяснение
- 2. Основные задачи статистического оценивания. Смещенные и несмещенные оценки
- 3. Ошибки статистик и их определение. Доверительный вариант
- 4. Ошибка суммы или разности средних значений
-
1. Ошибки выборочных статистических показателей. Их теоретическое объяснение
Значение основных статистических показателей (, у, б, Е) и их распределение очень важно для характеристики статистической выборки, но недостаточно для ее полной оценки. Если бы мы работали с численностями генеральной совокупности, например, замеряли все деревья лесхоза, области, государства, то вычисленных значений среднего, среднеквадратического отклонения и других показателей было бы достаточно. Но в подавляющем большинстве случаев замеры проводят для выборочной совокупности: на пробной площади, на опытном участке и т.д. Поэтому нам надо знать, насколько наши статистические показатели соответствуют аналогичным данным из генеральной совокупности, т.е. достоверны ли они и каковы их ошибки. Такую оценку нам дают вычисленные ошибки статистик.
В основе оценок статистик лежит знание об их распределении. Так, если из одной генеральной совокупности взять некоторое число выборок и для каждой из них определить статистики, например, и у, то можно выявить распределение этой статистики, которая тоже является случайной величиной. Знание закона распределения искомой статистики позволяет делать ее вероятные оценки. Следовательно, оценку искомого статистического параметра можно сделать только с определенной вероятностью.
Теоретическую основу таких оценок дает теория вероятности и описываемый ею закон больших чисел. Здесь важными для решения наших задач являются теоремы Маркова, Чебышева, Пуассона и Бернулли. Их подробное изложение с приведением доказательств есть в учебниках по теории вероятностей, а также в книге А.К. Митропольского. Учитывая ограниченность курса лесной биометрии, приведем здесь лишь сами теоремы без их доказательства в том порядке, в каком они взаимосвязаны.
статистическое оценивание показатель смещенная оценка
Доказательства названных теорем базируются на использовании леммы Маркова. Поэтому приведем ее определение и доказательство.
Лемма Маркова формулируется следующим образом. Если случайная величина х может принимать только положительные значения, то вероятность P того, что эта величина не превзойдет своего математического ожидания М (х), умноженного на некоторое положительное число t2, больше разности между единицей и числом, обратным данному положительному числу. Обозначая вероятность соотношения как P{х}, лемму Маркова можно записать следующим образом:
P. (1)
Для доказательства (9.1) допустим, что х принимает только некоторые положительные значения, т.е. х1, х2, … хk с вероятностями Р1, Р2,…Рk.
Из ранее изложенного материала мы знаем, что .
Тогда М (х) будет равно
М (х) = ?Рi xi. (2)
Если возьмем любое положительное число t2 (при возведении в квадрат любое число будет положительным), допустим, что первые i значений этого ряда не больше М (х) t2, а остальные больше М (х) t2.
Тогда по теории сложения вероятностей имеем
P=?Pi и (3)
. (4)
Следовательно, P+Q=1.
Так как вероятности представляют числа неотрицательные, то, опуская в правой части равенства (2) члены с индексами
1, 2, …, j,
мы получим неравенство
(5)
Так как далее все значения
(6)
больше M (X) t2, то, подставляя в (5) эту последнюю величину, вместо каждого из значений (6), получим более строгое неравенство
, т.е.
.
Разделив левую и правую части этого неравенства на положительную величину М (X) t2, находим
.
И так как на основании того, что P+Q=1 имеем
Q=1-P, то
, т.е. ,
что и выражает лемму Маркова.
Заметим, что хотя лемма Маркова имеет место при любом положительном числе t2, однако, в силу того, что величина вероятности не может быть меньше нуля, мы, рассматривая (9.1) заключаем, что имеет смысл брать лишь те t2, которые не меньше 1. При t2= 1 имеем
.
Чем больше Р, тем больше будет вероятность того, что
.
Как следствие из леммы Маркова, находим, что
, (7)
т.е. вероятность неравенства Х>М (Х) t2 не больше .
Написав неравенство (9.1) в виде
и положив M (X) t2 =ф, имеем
. (8)
Поэтому лемма Маркова может быть выражена также следующим образом.
Если случайная величина X может принимать только положительные значения, то вероятность того, что она получит значения, не превосходящие некоторого положительного числа ф, больше
.
Приведем геометрическую иллюстрацию леммы Маркова (рисунок 1).
Левая часть неравенства (9.8) выражает вероятность того, что величина X не превосходит некоторого положительного числа ф. По определению, вероятность изменяется от нуля для событий невозможных до единицы для событий достоверных. Так как по условию величина X может принимать только положительные значения, то при ф = 0 очевидно, что
P{X? ф }=0
Рисунок 1 Геометрическая иллюстрация леммы Маркова как вероятность невозможного события.
При возрастании ф вероятность Р будет возрастать, стремясь к 1 при стремлении ф к бесконечности. На рисунке вероятность Р будет изображена линией, которая при ф ? 0 будет совпадать с осью абсцисс, а при ф > 0 будет подниматься над этой осью, стремясь слиться с прямой, параллельной этой оси и проходящей от нее на расстоянии, равном единице (рисунок 9.1).
Правая часть неравенства (9.8) представляет при ф > 0 ветвь гиперболы, которая при ф < M (X) расположена под осью абсцисс, при ф = М (X) пересекает эту ось, при ф>М (X) проходит над осью абсцисс и при неограниченном увеличении ф стремится слиться с прямой, указанной выше.
На основании неравенства (9.8), кривая вероятностей Р расположена над ветвью гиперболы; следовательно, эта кривая не может проникать в области, заштрихованные на чертеже.
Лемма Маркова является основным предложением статистического исчисления. Замечательным свойством этой леммы является ее независимость от природы распределения положительной случайной величины. На лемме Маркова основано доказательство многих теорем статистического исчисления и, в частности, важнейшей из этих теорем - закона больших чисел.
Неравенство Чебышева. Лемма Маркова дает возможность найти вероятность того, что положительная случайная величина примет значение, не превышающее некоторого данного числа; при этом требуется только знание математического ожидания этой величины.
Определенное заключение о случайной величине дает также неравенство Чебышева, которое приложимо к каким угодно (не обязательно положительным) случайным величинам, причем требуется только знание математического ожидания и дисперсии случайной величины.
Неравенство Чебышева. Если случайная величина X может принимать и положительные и отрицательные значения, то, каким бы ни было положительное число ф,
. (9)
При установлении этого неравенства применяется лемма Маркова. Доказательство (9) опускаем.
Неравенство (9) дает нижнюю границу
вероятности того, что отклонение значений случайной величины от ее математического ожидания не превзойдет некоторого заданного числа ± ф. Если дисперсия у2 уменьшается, то нижняя граница вероятностей этих отклонений возрастает. Это показывает, что значения случайной величины тем более сосредоточиваются около ее математического ожидания, чем меньше дисперсия. Таким образом, выясняется смысл дисперсии у2 как меры рассеяния значений случайной величины около ее математического ожидания.
Полагая в неравенстве (9)
Имеем
и, следовательно,
.
Эти неравенства справедливы для любого распределения случайной величины с конечной дисперсией.
При постоянном основном отклонении у неравенство показывает, что если t будет увеличиваться, то вероятность того, что значения случайной величины будут находиться в увеличивающемся промежутке (-tу+M (x), tу+M (x)), будет увеличиваться. В частности, если t=2, то
;
если t=3, то
.
Пусть теперь величина t будет постоянной. Тогда при уменьшающемся основном отклонении у, т.е. уменьшающемся промежутке (M (x) - tу, M (x) +tу), нижняя граница вероятности значений x-M (x), заключающихся в этом промежутке, будет оставаться постоянной. Отсюда опять-таки следует, что чем меньше основное отклонение, тем теснее отдельные значения случайной величины сосредоточиваются около ее математического ожидания.
Таким образом, основное отклонение служит мерой рассеяния значений случайной величины.
После усвоения леммы Маркова и неравенства Чебышева приведем (без доказательства) теорему Маркова.
Она выражается уравнением
P, (10)
где v, w - некоторые произвольно заданные положительные числа;
as - математическое ожидание.
Теорема Маркова выполняется при условии ; .
Теорема Маркова представляет собой наиболее общее выражение закона больших чисел. Ее частным случаем является теорема Чебышева. Она формулируется следующим образом.
Теорема Чебышева. Если число n попарно независимых случайных величин
х1, x2,…, xn
можно увеличивать беспредельно и математические ожидания их квадратов все не превосходят одного и того же постоянного числа, то при достаточно большом числе этих величин будет сколь угодно близкой к достоверности вероятность того, что их среднее арифметическое отличается произвольно мало от среднего арифметического их математических ожиданий:
. (11)
Одним из важных следствий теоремы Чебышева является применение ее к случаю, когда все попарно независимые величины
х1, x2,…, xn
имеют одно и то же математическое ожидание, т.е. когда все
и, кроме того, все
,
причем b существует, т.е. конечно. Иначе говоря, независимые величины
х1, x2,…, xn
можно рассматривать как значения, полученные в n независимых испытаниях относительно одной и той же случайной величины х. В таком случае, согласно теореме Чебышева имеем
.
Таким образом, из теоремы Чебышева получается как следствие важная теорема:
Если с величиной х, имеющей конечную дисперсию, производится достаточно большое число независимых испытаний, то с вероятностью, сколь угодно близкой к достоверности, можно ожидать, что среднее арифметическое наблюденных значений величины х будет произвольно мало отличаться от ее математического ожидания.
Теоремы Пуассона и Бернулли мы рассмотрели ранее, когда описывали биноминальное распределение.
Таким образом, рассмотренные теоремы доказывают, что чем больше объем выборки, тем точнее средний результат, т.е. выборочная средняя () в меньшей мере отклоняется от средней арифметической (М) генеральной совокупности, и наоборот, чем меньше выборка, тем меньше и шансов на то, что выборочная средняя совпадет по величине со средней арифметической генеральной совокупности. Действие этого закона основано на свойстве самих случайных величин, отрицательные и положительные значения которых способны компенсировать друг друга и тем полнее, чем большему числу испытаний подвергается случайная величина. На этом свойстве случайных величин компенсировать друг друга и основана относительная устойчивость средних значений. Поэтому описанные в предыдущей главе закономерности распределения, наблюдаемые в ранжированных совокупностях вариант, следует рассматривать как проявление наиболее общего закона поведения случайных величин - закона больших чисел.
Закон больших чисел утверждает, что практически маловероятно значительное отклонение средней арифметической выборочной совокупности () от средней арифметической генеральной совокупности (М), если число наблюдений достаточно велико.
2. Основные задачи статистического оценивания. Смещенные и несмещенные оценки
Мы рассмотрели теоретические аспекты статистического оценивания. Теперь рассмотрим его практическое приложение. К.Е. Никитин и А.З. Швиденко рассматривают оценки в следующей интерпретации.
Статистическое оценивание информации включает три основные задачи: нахождение по выборке наиболее вероятных значений оценок некоторых параметров ("точечное" оценивание); оценку интервалов, относительно границ которых с определенной вероятностью можно утверждать, что они заключают неизвестный параметр (интервальное оценивание); проверку справедливости тех или иных утверждений относительно изучаемого явления (проверка статистических гипотез). Эти задачи тесно взаимосвязаны, но можно решать каждую отдельно или все одновременно в зависимости от цели статистического анализа. Например, мы, определив запас древесины на 1 га в древостое дуба, нашли его равным 250 м3. Эту величину надо оценить следующим образом.
§ Насколько точно значение 250 м3/га (% ошибки) и какие допустимы отклонения от нее в обе стороны: точечное оценивание и оценка интервала.
§ Насколько найденная величина соответствует среднему запасу дубовых древостоев в данном возрасте при определенном классе бонитета.
Оценки параметров получают различными методами. Поэтому, естественно, выбирают те, которые дают наилучшие результаты. Для этой цели вводят понятия несмещенности, состоятельности, эффективности и достаточности оценок.
Оценку называют несмещенной, если она не дает систематической ошибки при оценивании некоторого параметра и, другими словами, если среднее значение оценки, полученное по множеству выборок, практически совпадает с и. В принципе может быть несколько несмещенных оценок одного и того же параметра; например, в качестве оценки среднего значения генеральной совокупности при некоторых условиях можно взять выборочное среднее или выборочную медиану. В этом случае целесообразно брать оценку с меньшей изменчивостью.
Оценку называют состоятельной, если по мере увеличения объема выборки она все больше приближается к оцениваемому параметру. Состоятельную оценку с наименьшей дисперсией называют эффективной. Наконец, достаточность оценки понимают в том смысле, что не существует другой оценки параметра и, вычисленной на основании данной выборки и содержащей дополнительную информацию об этом параметре. Достаточность оценки влечет за собой ее эффективность и состоятельность.
Для нахождения оценок с заданными свойствами существует ряд методов, из которых наиболее часто применяют метод максимального правдоподобия и метод моментов. Метод максимального правдоподобия предполагает использование в качестве оценки параметра и такого значения, которое (по данным выборки) наиболее вероятно с точки зрения возможности замены им и. Этот метод дает эффективные, но не всегда несмещенные оценки, а для выборок большого объема оценки имеют нормальное распределение.
Метод моментов обеспечивает состоятельные, но не всегда эффективные оценки. В этом методе, использованном выше при аппроксимации выборочных распределений, параметры распределения представляют через моменты. По выборке вычисляют оценки моментов и подставляют их в полученные уравнения, по которым находят неизвестные параметры.
Целесообразность практического использования оценок с теми или иными свойствами должна обсуждаться в контексте конкретных задач. Зачастую "хорошие" свойства оценок совпадают. Так, выборочное среднее всегда является несмещенной и состоятельной оценкой среднего генеральной совокупности, а при нормальности исходной совокупности - еще и достаточной, в то время как медиана в качестве выборочной оценки среднего таковой не является, так как ее дисперсия больше дисперсии выборочного среднего. В некоторых случаях лучше иметь оценку несколько смещенную, но состоятельную; иногда несмещенность можно устранить. Так, при нахождении дисперсии, знаменатель n-1 объясняется именно тем, что выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности, а сомножитель n/ (n - 1) это смещение устраняет.
3. Ошибки статистик и их определение. Доверительный вариант
Для практического использования нам надо знать ошибки основных статистик распределения: среднего значения, среднего квадратического отклонения, коэффициента вариации, асимметрии и эксцесса.
В литературе часто встречается выражение "ошибка репрезентативности". Поэтому начнем рассмотрение с нее.
Ошибки репрезентативности. Расхождение между величиной средней арифметической () выборки и величиной средней арифметической генеральной совокупности (М) принято называть ошибкой репрезентативности, т.е. ошибкой, допускаемой не в самом процессе измерительной и вычислительной работы, а в результате случайного отбора вариант из генеральной совокупности при образовании выборки. Репрезентативная ошибка - это не техническая, а статистическая ошибка. Она указывает на величину отклонения выборочной средней () от средней (М) генеральной совокупности.
Величина репрезентативной ошибки определяется по разности между средними величинами выборки и генеральной совокупности, т.е. как () - М. Однако этот показатель в практике использовать невозможно, так как средняя арифметическая генеральной совокупности обычно остается неизвестной. Если же средняя (М) генеральной совокупности известна, то указанная разность (-М) теряет свое значение. Поэтому ошибки репрезентативности определяются не прямым, а косвенным путем - через отклонения вариант от выборочной средней.
Ошибка отдельно взятой варианты. Если судить о величине статистической ошибки отдельно взятой варианты, то она равна среднему квадратическому отклонению, так как любое эмпирическое распределение, следующее нормальному закону, практически укладывается в пределах плюс-минус трех сигм, т.е. 3. Ошибку репрезентативности называют поэтому средней квадратической ошибкой, или просто средней ошибкой. Будем ее обозначать через m, указывая при этом и характеристику, которую она сопровождает. Таким образом, средняя квадратическая ошибка отдельно взятой варианты выразится в виде
.
Среднее квадратическое отклонение имеет двоякое значение: во-первых, оно основное мерило изменчивости, показатель вариабельности признаков, а во-вторых, среднее квадратическое отклонение служит в качестве статистической ошибки отдельно взятой варианты.
Ошибка средней арифметической. Математическая статистика утверждает, что выборочная средняя () отклоняется от своего математического ожидания или средней арифметической (М) генеральной (теоретически рассчитанной) совокупности меньше в раз по сравнению с отдельными вариантами данного распределения. Отсюда следует, что средняя квадратическая ошибка выборочной средней () равняется частному от деления среднего квадратического отклонения на корень квадратный из числа всех вариант данной совокупности, т.е.
mx = (12)
Приведем пример. Возьмем распределение числа деревьев по толщине и сделаем нужные нам вычисления (таблица 1.).
Таблица 1 - Вычисление среднего значения и его ошибки на примере распределения диаметров в сосновом 80-летнем древостое II класса бонитета
Ступени толщины (классовые варианты, хi) |
Число стволов (частоты, ni) |
xi•ni |
а=хi- |
а2 |
ni a2 |
|
12 |
4 |
48 |
-14 |
196 |
784 |
|
16 |
8 |
128 |
-10 |
100 |
800 |
|
20 |
26 |
520 |
-6 |
36 |
936 |
|
24 |
43 |
1032 |
-2 |
4 |
172 |
|
28 |
31 |
868 |
+2 |
4 |
124 |
|
32 |
22 |
704 |
+6 |
36 |
792 |
|
36 |
11 |
396 |
+10 |
100 |
1100 |
|
40 |
4 |
160 |
+14 |
196 |
784 |
|
44 |
1 |
44 |
+18 |
324 |
324 |
|
Итого |
150 |
3900 |
- |
5816 |
По данным таблицы 9.1 вычислим статистики распределения и их основные ошибки.
=
= == = 6,23 6,2
Принято записывать среднюю величину вместе с ее основной ошибкой, т.е. = 26 0,5.
Средняя ошибка указывает наиболее вероятные границы, в которых возможны случайные колебания величины средней арифметической в зависимости от объема выборки. При увеличении числа испытаний средняя ошибка уменьшается. Когда число наблюдений неограниченно возрастает, средняя ошибка стремится к нулю, т.е. при N и m 0. Следовательно, средняя ошибка есть мера точности, или относительной достоверности, нашего суждения о возможных колебаниях средних показателей варьирующих величин.
Поскольку весь вариационный ряд нормально распределяющейся случайной величины Х практически укладывается в пределах между +3 и -3 на 99,9 %, то можно сказать, что генеральная средняя (М) таких распределений не выходит за пределы утроенного значения средней ошибки средней арифметической любой выборки, взятой из данной генеральной совокупности, т.е. она всегда заключена между пределами от - 3m до + 3m или в пределах 3m. Поэтому утроенное значение средней квадратической ошибки называется предельной ошибкой средней арифметической выборочной совокупности. Выражение 3m заключает в себе содержание так называемого “правила утроенной ошибки” и правила трех сигм.
При вычислении ошибки средней арифметической на малых выборках число наблюдений (N) берется с “числом степеней свободы”, и формула (9.12) принимает следующий вид:
m= (13)
При больщом N разница между N и N-1 несущественная, и формулу (13) можно записать как (13а)
Когда средняя арифметическая вычисляется прямым способом на материале, не сгруппированном в классы, ошибку можно определить по следующей формуле:
m= (14)
Например, имеются следующие десять вариант, выражающих толщину деревьев на опытном участке в культурах сосны возрастом 10 лет:
5, 6, 6, 7, 4, 4, 2, 5, 5, 5, 6
Вычисления здесь будут проведены по схеме, приведенной в таблице 2.
Если же средняя арифметическая определяется на несгруппированном в классы материале коротким способом моментов (способом условной средней), то средняя ошибка вычисляется по формуле (11):
m= , где (15)
а=х-А, т.е. отклонение варианты от условной средней. Продемонстрируем применение этой формулы на предыдущем примере (таблица 3).
Таблица 2 - Вычисление ошибки среднего при несгруппированных вариантах, формула (14)
№ п/п xi |
Толщина деревьев, варианты ni, см |
Вычисление |
||
1 |
5 |
25 |
Из уравнения (9.14) |
|
2 |
6 |
36 |
||
3 |
6 |
36 |
||
4 |
7 |
49 |
||
5 |
4 |
16 |
||
6 |
4 |
16 |
||
7 |
2 |
4 |
||
8 |
5 |
25 |
||
9 |
5 |
25 |
||
10 |
6 |
36 |
||
Сумма |
50 |
268 |
Таблица 3 - Схема вычисления ошибки среднего по формуле (9.15)
№ п/п xi |
Численности ni |
Отклонения от условной средней a |
a2 |
Вычисление по формуле (9.15) |
|
1 |
5 |
+1 |
1 |
||
2 |
6 |
+2 |
4 |
||
3 |
6 |
+2 |
4 |
||
4 |
7 |
+3 |
9 |
||
5 |
4=k |
0 |
0 |
||
6 |
4 |
0 |
0 |
||
7 |
2 |
-2 |
4 |
||
8 |
5 |
+1 |
1 |
||
9 |
5 |
+1 |
1 |
||
10 |
6 |
+2 |
4 |
||
Сумма |
50 |
+10 |
28 |
Из приведенных расчетов следует, что полученный результат практически (с учетом округления) идентичен предыдущему.
Ошибка среднего квадратического отклонения. Понятие ошибки репрезентативности относится не только к средней арифметической, но и к другим средним показателям, в частности к среднему квадратическому отклонению, характеризующему варьирование признака в данной совокупности. Средняя ошибка среднего квадратического отклонения вычисляется по формуле
= (16)
или (16 а)
В нашем примере (таблица 1), где N=150, у=6,2, ошибка составит
= .
Следовательно, лежит в пределах (с достоверностью 99,9 %) 6,2±3•0,356=6,2±1,068.
Для примера, рассчитанного по таблице 9.2 =.
Тогда пределы следующие: 2,31±1,55.
Ошибка коэффициента вариации. Средняя ошибка коэффициента вариации (V) определяется по следующей приближенной формуле:
mV = (17)
В формулу (17) можно также представить в следующем виде
(17 а)
Вычислим по данным таблицы 9.1 коэффициент вариации и его ошибку.
V=
Тогда по формуле (17)
mV =
По формуле (17а) .
Значения mv по обоим формулам с учетом округления практически одинаковы.
Следовательно, коэффициент вариации генеральной совокупности, к которой принадлежит наша выборка не выйдет за пределы mV =23,8±4,32.
Средняя ошибка доли. В отношении качественных признаков, когда средняя арифметическая показывает относительную численность одной из альтернатив и выражается либо в абсолютных значениях, либо в долях единицы или в процентах, средняя ошибка выражается в тех же значениях, что и альтернативы. Так, если признак выражен в абсолютных значениях, то средняя ошибка, называемая ошибкой относительной частоты, равняется:
mD = (18)
Здесь р - частота одной из альтернатив; N - общее число наблюдений, т.е. р1+р2=N.
Например, при посадке 100 семян березы карельской получено 44 дерева карельской березы и 56 деревьев березы повислой (обычной). Определим среднюю ошибку этого отношения:
mD =.
Можно сказать, что среди потомства карельской березы есть 44±5 особей.
Если альтернативы выражаются долями единицы, то ошибка относительной частоты определяется по аналогичной формуле (19).
m = (19)
Формула достаточно ясна и без числовых примеров.
Если численность одной из альтернатив близка к нулю, то среднюю ошибку относительной частоты можно определить из отношения
m=, или m= %,
когда альтернативы выражены в процентах.
Ошибки показателей асимметрии и эксцесса. Средняя ошибка показателя асимметрии определяется по следующей формуле:
mбs = , (20)
или более точно по формуле
mбs = (21)
Ошибку коэффициента эксцесса можно вычислить по следующим аналогичным формулам:
mЕх = 2 или mЕх = (22)
или по более точной формуле
mЕх = (23)
Определим ошибки асимметрии и эксцесса, использовав ранее рассмотренный пример (таблица 8.2) ряда распределения диаметров сосны.
Вспомним, что по данным таблицы 8.2 мы получили б=0, 203; E=-0,55. Число стволов в нашем примере составило 200.
Тогда
mбs =
или более точно
mбs = .
Результаты получились практически одинаковые. Поэтому при достаточно большом N>30-40 рациональнее использовать формулу (16).
Ошибка эксцесса для нашего примера равна (формула (18))
mЕх = .
По уточненной формуле (19)
mЕх = .
Результат получился подобным тому, что видели при вычислении mбs, т.е. при N>30 лучше пользоваться формулой (18).
Таким образом, повторим все сказанное об ошибках статистик. Они определяются по формулам
m=; а при N<30 m= ;
или при больших N
или ; ;
или ;
; .
Понятие об ошибках статистик тесно связано с величиной доверительного интервала.
Ранее мы уже упоминали доверительные интервалы в 1у (0,68), 2у (0,95), 3у (0,999). Здесь дадим более обстоятельное описание доверительных интервалов.
Доверительные вероятности и уровни значимости. В математической статистике, а также и в биометрии принято существенность того или иного результата оценивать по значению трех вероятностей, близких к достоверности: Р1=0,95, или 95%, Р2=0,99, или 99%, Р3=0,999, или 99,9%. Эти вероятности получили название доверительных.
Вероятности же, которыми решено пренебрегать, т.е. Р1=0,05, или 5%, Р2=0,01, или 1%, и Р3=0,001, или 0,1%, получили название уровней значимости, или уровней существенности.
И те и другие вероятности обозначаются символами, как Р0,95 или Р0,05 и т.д.
Каждой доверительной вероятности соответствует определенное значение нормированного отклонения (t):
вероятности |
Р1=0,95 |
соответствует |
t1=1,96 |
|
-- |
Р2=0,99 |
-- |
t2=2,50 |
|
-- |
Р3=0,999 |
-- |
t3=3,30 |
Доверительный интервал и границы доверия. Выше было сказано, что величина ошибки выборочной средней определяется по разности между этой средней () и средней генеральной совокупности (М), т.е. как -М. Можно ли по эмпирическим данным определить наиболее вероятные границы, в которых находится средняя (М) генеральной совокупности? Математическая статистика дает на этот вопрос положительный ответ. Интервал, в котором с заданной вероятностью или уровнем значимости заключена средняя арифметическая генеральной совокупности, называется доверительным интервалом. Границы этого интервала получили название доверительных границ, или границ доверия. Как же определить доверительный интервал и его границы? Это достигается нормированием отклонения варианты, или выборочной средней, от средней генеральной совокупности. Так, если взять нормированное отклонение варианты от выборочной средней
t=,
то можно преобразовать его следующим образом: хi - =t. Аналогично отклонение выборочной средней от средней генеральной совокупности (М) выражается через
-М=t, или -М=t m.
Величина этого отклонения зависит, следовательно, от степени вариабельности признака, а также от уровня вероятности, с которой определяется доверительный интервал. Заменив в этом уравнении знаки на обратные и переставив в правую часть уравнения получим
М= - tm.
А так как может быть и больше и меньше М, то указанное выражение можно написать в таком виде: М=tm. Отсюда доверительный интервал для средней арифметической генеральной совокупности выразится следующим неравенством:
-tm М +tm,
где -tm и +tm - границы доверительного интервала.
Из изложенного вытекает много важных практических приложений для лесного хозяйства. Например, требуется, чтобы материально-денежная оценка лесосек проводилась достаточно точно на каждой из протаксированных делянок, т.е. достоверность здесь должна равняться 3у.
Приемлемая технология таксации лесосек обеспечивает достоверность в 3у при точности в ±10%. Правда, 1-2 лесосека из 1000 могут не вложиться в точность ±10%, но на это пришлось пойти, так как более высокая точность учета требует иной, гораздо более дорогой технологии, и экономически не оправдана.
Но уже совокупность 3-5 лесосек при отсутствии систематической ошибки должна таксироваться с точностью 5-6%, а при наличии 10 лесосек точность должна составлять 3-4% и т.д.
4. Ошибка суммы или разности средних значений
Часто нам надо знать, различаются ли между собой средние величины. Например, спустя n лет после внесения удобрений средний диаметр опытного древостоя составил 24 см, а контрольного - 22 см. Возникает вопрос, насколько эта разница существенна и является результатом проведенных мероприятий или зависит от случайных причин. Для оценки таких различий используют t-критерий Стьюдента.
t-распределение Стьюдента. Прежде чем приступить к рассмотрению вопросов, связанных с методикой оценки достоверности различий, наблюдаемых между выборочными средними, необходимо рассмотреть еще одну сторону нормированного отклонения, имеющую прямое отношение к статистике малой выборки. В данном случае имеется в виду закон распределения величин нормированного отклонения выборочной средней () от средней арифметической генеральной совокупности (М), открытый английским математиком Вильямом Госсетом в 1908 году. Этот ученый печатался под псевдонимом Стьюдент (Student). Стьюдент установил, что вероятность нормированного отклонения -М: = t выражается следующим уравнением:
P (t) = C ,
которое носит название распределения Стьюдента. Здесь Р (t) обозначает вероятность указанного нормированного отклонения, а С - некоторый множитель, зависящий лишь от объема выборки (N).
В практике (при независимых xi) для оценки достоверности разницы между средними используют следующие приемы.
Так, если xi независимы, то, например, для y=x1-x2 имеем
. (24)
Выражение (24) - основная ошибка разности двух случайных величин. Этот показатель можно применять для оценки значимости различия между средними двух выборок, например, для суждения о том, можно ли считать, что данные выборки принадлежат к одной генеральной совокупности. Для этой цели вычисляют величину
. (25)
Если t*>2, то с вероятностью 0,95, а при t*>3 с вероятностью, практически не отличающейся от 1, можно утверждать, что различие между средними значимо.
Приведем пример практического использования t-критерия Стьюдента в лесохозяйственной практике.
Пусть на некотором участке лесных культур сосны возрастом 30 лет II класса бонитета внесли минеральные удобрения. Через 10 лет измерили опытный и контрольный участок, которые 10 лет назад были аналогичны, т.е. имели средние диаметры 10,9 (контроль) и 11 см (опыт), а через десять лет соответственно 14,0 и 15,1 см. Ошибка среднего значения составила в 40 лет 0,3 и 0,4 см. Используя формулу (25) найдем
t = .
Таким образом, с вероятностью 0,95 мы можем утверждать, что удобрения дали положительный эффект.
В практике лесного хозяйства и, особенно при проведении научных исследований, t-критерий применяется повсеместно. Критические значения t-критерия Стьюдента при определенном числе степеней свободы для разных уровней вероятности приведены в приложении Е.
Размещено на Allbest.ru
...Подобные документы
Цель и задачи статистического анализа. Методы получения оценок: максимального правдоподобия, моментов. Доверительный интервал. Точечная оценка параметров распределения. Генеральная и выборочная дисперсии. Интервальное оценивание математического ожидания.
презентация [395,9 K], добавлен 19.07.2015Метод группировок в статистике. Понятие об интервале, их выбор по количественным и атрибутивным признакам. Понятие о структурных средних. Мода и медиана. Распределение населения по уровню среднедушевого месячного дохода. Ошибки выборочного наблюдения.
контрольная работа [281,9 K], добавлен 22.06.2013Интерполяционная схема Эйткина. Связь конечных разностей и производных. Распространение ошибки исходных данных при вычислении конечные разности. Свойства разделенной разности. Интерполяционная формула Ньютона для не равноотстоящих узлов. Полином Лагранжа.
лекция [92,3 K], добавлен 06.03.2009Среднее арифметическое наблюдаемых значений, служащее оценкой для математического ожидания. Состоятельность оценки, следующая из теоремы Чебышева. Условия возникновения систематической ошибки, ликвидация смещения. Точечные параметры оценки величин.
презентация [62,3 K], добавлен 01.11.2013Получение статистических данных для обобщенной характеристики состояния и развития явления. Виды, способы и организационные формы статистического наблюдения. Статистический формуляр, сводка и группировка данных. Статистические таблицы и графики.
реферат [33,3 K], добавлен 12.11.2009Применение в статистике конкретных методов в зависимости от заданий. Методы массовых наблюдений, группировок, обобщающих показателей, динамических рядов, индексный метод. Корреляционный и дисперсный анализ. Расчет средних статистических величин.
контрольная работа [29,5 K], добавлен 21.09.2009Понятие математической статистики как науки о математических методах систематизации и использования статистических данных для научных и практических выводов. Точечные оценки параметров статистических распределений. Анализ вычисления средних величин.
курсовая работа [215,1 K], добавлен 13.12.2014Согласование выборочных распределений. Отбор статистических данных с помощью таблицы случайных чисел. Расчет числовых характеристик распределения выборочных частот. Проверка предположения, что распределение генеральной совокупности является нормальным.
курсовая работа [276,6 K], добавлен 19.01.2016Проведение статистического анализа зависимости массы тела (кг) новорожденных детенышей гамадрилов от массы тела их матерей. Графическое представление экспериментальных данных. Определение границы доверительных интервалов для генеральных средних значений.
контрольная работа [1,3 M], добавлен 18.01.2011Числовые характеристики непрерывных величин. Точечные оценки параметров распределения. Статистическая проверка гипотез. Сравнение средних известной и неизвестной точности измерений. Критерий Хи-квадрат для проверки гипотезы о виде распределения.
курсовая работа [79,0 K], добавлен 23.01.2012Определение вероятность срабатывания устройств при аварии. Расчет математического ожидания, дисперсии и функции распределения по заданному ряду распределения. Построение интервального статистического ряда распределения значений статистических данных.
контрольная работа [148,8 K], добавлен 12.02.2012Алгоритм определения вероятности события и выполнения статистических ожиданий. Оценка возможных значений случайной величины и их вероятности. Расчет математического ожидания, дисперсии и среднего квадратического отклонения. Анализ характеристик признака.
контрольная работа [263,8 K], добавлен 13.01.2014Понятие доверительного интервала, сущность и определение критерия согласия Пирсона. Особенности точечного оценивания неизвестных параметров, основные требования к оценкам и статистикам. Характеристика классической линейной модели регрессионного анализа.
дипломная работа [440,4 K], добавлен 23.07.2013Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.
курсовая работа [352,9 K], добавлен 26.01.2010Понятие доверительной вероятности и доверительного интервала и его границ. Закон распределения оценки. Построение доверительного интервала, соответствующего доверительной вероятности для математического ожидания. Доверительный интервал для дисперсии.
презентация [124,9 K], добавлен 01.11.2013Предмет и метод математической статистики. Распределение непрерывной случайной величины с точки зрения теории вероятности на примере логарифмически-нормального распределения. Расчет корреляции величин и нахождение линейной зависимости случайных величин.
курсовая работа [988,5 K], добавлен 19.01.2011Основные свойства функций, для которых существуют пределы. Понятие бесконечно малых величин и их суммы. Предел алгебраической суммы, разности и произведения конечного числа функций. Предел частного двух функций. Нахождение предела сложной функции.
презентация [83,4 K], добавлен 21.09.2013Определение числа гармоник разложения функций в ряд Фурье, содержащих в сумме не менее 90% энергии. Построение амплитудного и фазового спектров функции, графика суммы ряда. Расчет среднеквадратичной ошибки между исходной функцией и частичной суммой Фурье.
контрольная работа [348,5 K], добавлен 13.12.2011Сущность и общая характеристика метода "барона Мюнхгаузена", его применение в алгебре. Нахождение значений выражений с бесконечным числом элементов, использование формулы куба суммы и разности. "Метод барона Мюнхгаузена": золотое сечение и фракталы.
реферат [2,8 M], добавлен 18.01.2011Основные сведения, необходимые при решении задач на собственные значения. Итерационные методы. Определение собственных значений методами преобразований подобия. Определение собственных значений симметричной трехдиагональной матрицы.
реферат [42,9 K], добавлен 19.05.2006