Оценка влияния отсутствия данных на расчет кривых обеспеченности
Описание подхода для оценки влияния исключаемых данных и подвыборок на разброс параметров распределения, а также оценка основных параметров статистического распределения гидрологических характеристик и определение величины погрешности этой оценки.
Рубрика | Производство и технологии |
Вид | статья |
Язык | русский |
Дата добавления | 21.07.2020 |
Размер файла | 502,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Оценка влияния отсутствия данных на расчет кривых обеспеченности
А.Т. Горшкова,
канд. геогр. наук, заведующая лабораторией
Д.А. Семанов, канд. хим. наук, науч. сотр.
О.Н. Урбанова, ст.й науч. сотр.
Академия наук Республики Татарстан
Аннотация
В нормативных документах, используемых для расчета обеспеченных значений гидрологических характеристик, приводятся только основные методы и схемы их определения без учета ошибок вычисления, особенно в части максимальных и минимальных значений. Предлагается упрощённый подход, достаточный не только для оценки влияния доли исключаемых данных и количества подвыборок на разброс параметров распределения, но и обоснования предположения о вариации в параметрах при появлении новых данных. В работе сделана оценка параметров статистического распределения гидрологических характеристик и определена величина погрешности этой оценки. гидрологический погрешность статистический
Ключевые слова: гидрологические характеристик, выборка, оценка погрешностей, параметры распределения
Введение
Гидрологическим обоснованием всех проектных решений, связанных с водохозяйственным строительством, являются статистически обеспеченные значения лимитирующих гидрологических характеристик, для получения которых по фактическим рядам наблюдений строятся эмпирические кривые обеспеченности, аппроксимируемые теоретическим распределением кривых Пирсона III типа или трехпараметрическим распределением Крицкого-Менкеля. Подобный подход закреплен в периодически обновляемых и используемых в настоящее время нормативных документах -- СН435-72, СП33-101-2003. Однако полного совпадения теоретических и эмпирических кривых достичь невозможно, так как ряд наблюденных гидрологических величин всегда будет несколько отличаться от теоретической вероятности.
В указанных сводах правил приводятся только основные методы и схемы определения расчетных гидрологических характеристик, но не указаны способы оценки погрешности вычислений, а использование подходов с тремя разными типами распределений не позволяют адекватно экстраполировать сами значения обеспеченностей до 1% и свыше 99%, тем более оценивать ошибку в их определении.
Подходы с проверкой адекватности распределений (соответствие фактическим статистическим данным), предложенные Христофоровым А.В. только осложняют ситуацию, существенно расширяя диапазоны параметров распределений, проходящих не слишком чувствительные статистические методы проверки их качества [1].
Для расчета кривых обеспеченности и определения с их помощью обеспеченных значений гидрологической величины (чаще всего это уровни или расходы воды) необходимо, чтобы длина ряда (продолжительность периода) наблюдений была достаточной для расчета и средняя квадратичная ошибка расчетного значения не превышает 10% для годового стока и 20% для максимального и минимального.
В настоящее время ряды гидрологических наблюдений имеют часто менее 20 значений, реже 30-50 и очень редко 80-100. Выбирая ряд значений за весь имеющийся период наблюдений, невозможно, однако, считать его в достаточной мере полным для того, чтобы непосредственно по нему устанавливать величины стока редкой повторяемости. В охваченном периоде наблюдений возможны пропуски в течение нескольких лет, когда измерения не проводились по ряду различных причин. В тех случаях, когда длина имеющегося ряда данных недостаточна для определения параметров распределения гидрологической характеристики, производят его удлинение с использованием достаточно тесной корреляционной связи данной характеристики расчетного бассейна и бассейна-аналога с более длительным периодом наблюдений [2].
Несмотря на то, что наблюдаемые гидрологические характеристики (годовой сток и другие его однородные характеристики) отдельных лет не связаны между собой, что в известной мере подтверждается данными наблюдений и специальными исследованиями, все их значения расположенные в хронологическом порядке, представляют собой статистический ряд. Для построения кривой обеспеченности по такому ряду и ее экстраполяции за пределы наблюдений члены ряда располагаются в убывающем порядке. Такой ранжированный (вариационный) ряд значений за ограниченный период наблюдений рассматривается как выборка (часть) некоторой случайной величины, функция распределения вероятностей которой подлежит статистическому распределению. При этом устанавливается связь между возможными значениями гидрологической характеристики и ее повторяемостью.
Для статистического оценивания параметров в выборке в настоящее время разработано большое количество способов, среди которых наиболее употребительными в отечественной гидрологии являются метод моментов (для оценки не более четырех параметров), метод максимального (наибольшего) правдоподобия (особенно полезен при малых выборках) и метод квантилей (схожий с методом моментов). Универсального ответа на вопрос, какой из рассмотренных методов лучше и какой из них следует применять для решения гидрологических задач, нет. Вычисленные этими методами параметры гидрологических характеристик несколько различаются между собой. Оценить отличие параметров трудно, так как в каждом конкретном случае, вычисленный параметр отличается от истинного значения на неизвестную величину. Иначе говоря, существует некоторая доля неопределенности в знании действительного значения параметра [3].
Оптимальными методами могли бы оказаться оценки с использованием генерации большого количества подвыборок из имеющихся данных с определением параметров распределения таких подвыборок и обеспеченностей гидрологических характеристик для каждой подвыборки с последующим усреднением и определением разброса значений получившихся величин. Для проверки возможности такого подхода допустимо использовать любую из рекомендуемых функций распределения. Правомерность такого подхода основывается на ограниченности исходных данных, несмотря на то, что имеющийся ряд данных может быть либо продлен, либо дополнен [4, 5].
По этой причине, любая подвыборка из имеющихся данных столь же «правомерна» для получения параметров распределения. Исключение некоторого случайного набора данных позволяет проверить насколько отсутствие определенной части значений повлияет на изменение параметров распределения. Это поможет сделать обоснованные предположения о вариации в параметрах при появлении новых данных.
Авторы на основании большого количества подвыборок оценили не только параметры статистического распределения гидрологических характеристик, но и определили величину погрешности этой оценки, что и явилось целью данного исследования.
Материалы и методы исследования
Исходными данными для получения параметров статистического распределения явились годовые и меженные (август) расходы воды р.Свияга в створах гидрологических наблюдений, расположенных у сел Ивашевка и Вырыпаевка, а также р. Казанка у г. Арска. В данном исследовании более подробно изложены результаты обработки и анализа исходных данных по посту Свияга-Ивашевка, выполненные с помощью программы, написанной на языке python (версия 2.72).
В качестве функции распределения гидрологических характеристик было принято трёхпараметрическое гамма-распределение
[6,7], а расчёт эмпирической вероятности проводился по формуле Алексеева
P = (m-0.25) / (n+0.5) * 100%, рекомендуемые СП 33-101-2003 [8].
Подбор функции распределения осуществлялся оценкой параметра «a» с помощью коэффициента вариации «Cv» с последующим подбором параметров «б» и «b» вычислением линейной регрессии в логарифмических координатах. Расчёты проводились для выборок, генерируемых из исходного набора данных, путём исключения случайным образом двух и более значений. Количество подвыборок составило 50, 200, 500 и 2000. Вычислялись параметры распределения и обеспеченности 1%, 5%, 50%, 75%, 95%, 99%.
Конечные параметры обеспеченности определялись как взвешенные средние. В качестве весового коэффициента использовалось обратное значение квадрата отклонения линейной регрессии при расчёте параметров «б» и «b». Ошибки оценок параметров определялись упрощённо, как если бы статистики соответствовали нормальному распределению с 95% вероятностью, за исключением 99% и 1% обеспеченности, для которых диапазон ошибки в оценке среднего захватывает 99% данных. Упрощённый подход без учёта формы распределения получившихся статистик был посчитан достаточным для оценки влияния доли исключаемых данных и количества подвыборок на разброс параметров распределения.
Результаты исследования и обсуждение
На основе значений годовых расходов воды, наблюдаемых у с. Ивашевка, расположенного на р. Свияга оценивалась степень влияния количества исключённых данных и количества подвыборок на результаты оценки параметров распределения и их погрешностей. Исходная выборка состояла из 54 значений годовых расходов воды. Проверялось исключение 2 (менее 4% данных) и 5 (более 9%) значений. Результаты расчетов представлены в таблице 1.
Таблица 1. Степень влияния количества исключенных данных на оценку параметров распределения в подвыборках
Кол-во исключенных значений |
Количество подвыборок |
Параметры распределения |
|
2 |
50 |
a=0.0617 ± 0.00052 b=0.896 ± 0.00276 alpha=9.74 ± 0.10 обеспеченность 99%=7.98 ± 0.071, P=0.99 обеспеченность 95%=11.1 ± 0.071 обеспеченность 75%=16.7 ± 0.064 обеспеченность 50%=21.6 ± 0.059 обеспеченность 5%=37.3 ± 0.12 обеспеченность 1%=45.7 ± 0.25, P=0.99 |
|
2 |
200 |
a=0.0617 ± 0.00029 b=0.897 ± 0.0014 alpha=9.71 ± 0.051 обеспеченность 99%=7.96 ± 0.032, P=0.99 обеспеченность 95%=11.1 ± 0.031 обеспеченность 75%=16.7 ± 0.027 обеспеченность 50%=21.5 ± 0.024 обеспеченность 5%=37.3 ± 0.064 обеспеченность 1%=45.6 ± 0.13, P=0.99 |
|
2 |
500 |
a=0.0614 ± 0.00021 b=0.898 ± 0.0011 alpha=9.81 ± 0.038 обеспеченность 50%=21.5 ± 0.018 обеспеченность 75%=16.7 ± 0.022 обеспеченность 5%=37.2 ± 0.047 обеспеченность 95%=11.2 ± 0.027 обеспеченность 99%=8.01 ± 0.028, P=0.99 обеспеченность 1%=45.4 ± 0.098, P=0.99 |
|
2 |
2000 |
a=0.0615 ± 9.9e-05 b=0.898 ± 0.00050 alpha=9.76 ± 0.017 обеспеченность 50%=21.5 ± 0.0088 обеспеченность 75%=16.7 ± 0.010 обеспеченность 5%=37.2 ± 0.021 обеспеченность 95%=11.1 ± 0.012 обеспеченность 99%=7.99 ± 0.012, P=0.99 обеспеченность 1%=45.5 ± 0.044, P=0.99 |
|
5 |
50 |
a=0.0618 ± 0.00079 b=0.896 ± 0.0040 alpha=9.73 ± 0.179 обеспеченность 50%=21.5 ± 0.073 обеспеченность 75%=16.7 ± 0.086 обеспеченность 5%=37.2 ± 0.20 обеспеченность 95%=11.1 ± 0.10 обеспеченность 99%=7.96 ± 0.105, P=0.99 обеспеченность 1%=45.6 ± 0.43, P=0.99 |
|
5 |
200 |
a=0.0621 ± 0.00053 b=0.896 ± 0.0027 alpha=9.86 ± 0.104 обеспеченность 99%=7.94 ± 0.057, P=0.99 обеспеченность 95%=11.1 ± 0.062 обеспеченность 75%=16.7 ± 0.054 обеспеченность 50%=21.5 ± 0.048 обеспеченность 5%=37.1 ± 0.13 обеспеченность 1%=45.4 ± 0.27, P=0.99 |
|
5 |
500 |
a=0.0618 ± 0.00033 b=0.896 ± 0.0017 alpha=9.82 ± 0.056 обеспеченность 99%=7.98 ± 0.038, P=0.99 обеспеченность 95%=11.1 ± 0.037 обеспеченность 75%=16.7 ± 0.032 обеспеченность 50%=21.5 ± 0.028 обеспеченность 5%=37.2 ± 0.070 обеспеченность 1%=45.5 ± 0.15, P=0.99 |
|
5 |
2000 |
a=0.0617 ± 0.00017 b=0.897 ± 0.00084 alpha=9.84 ± 0.029 обеспеченность 99%=8.00 ± 0.020, P=0.99 обеспеченность 95%=11.2 ± 0.020 обеспеченность 75%=16.7 ± 0.017 обеспеченность 50%=21.5 ± 0.015 обеспеченность 5%=37.2 ± 0.035 обеспеченность 1%=45.5 ± 0.074, P=0.99 |
Анализ полученного результата показывает, что с увеличением количества подвыборок (200 и выше), оценка погрешностей существенно не изменяется. Для крайних обеспеченностей (1% и 95%) величина оценки погрешностей растет с увеличением количества отбрасываемых значений. Результаты оценок годовых и меженных (август) расходов воды для пунктов наблюдения на р. Свияга по постам Ивашевка и Вырыпаевка при 200 подвыборках и количестве исключенных значений 5 представлены в таблице 2.
Таблица 2. Результаты оценок годовых и меженных (август) расходов воды крайних обеспеченностей по постам Свияга-Ивашевка и Свияга-Вырыпаевка
Пункт наблюдения и период |
Количество подвыборок (Кол-во исключенных значений) |
Параметры распределения |
|
Ивашевка, год |
200 (5) |
a=0.0621 ± 0.00053 b=0.896 ± 0.0027 alpha=9.86 ± 0.104 обеспеченность 95%=11.1 ± 0.062 обеспеченность 1%=45.4 ± 0.27, P=0.99 |
|
Ивашевка, август |
200 (5) |
a=0.112 ± 0.00073 b=0.946 ± 0.0028 alpha=3.021 ± 0.015 обеспеченность 95%=2.56 ± 0.017 обеспеченность 1%=30.2 ± 0.185, P=0.99 |
|
Вырыпаевка, год |
200 (5) |
a=0.128 ± 0.00066 b=0.934 ± 0.0024 alpha=7.36 ± 0.048 обеспеченность 95%=4.12 ± 0.018 обеспеченность 1%=19.6 ± 0.078, P=0.99 |
|
Вырыпаевка, август |
200 (5) |
a=0.205 ± 0.00083 b=0.972 ± 0.0019 alpha=7.54 ± 0.068 обеспеченность 95%=2.42 ± 0.0089 обеспеченность 1%=10.6 ± 0.046, P=0.99 |
Количество повторов, начиная с 200 подвыборок, практически не влияет на величину ошибки. Полученные данные позволяют предположить, что исключение 10 -- 15% значений и количества подвыборок свыше 200 может быть достаточно для получения оценок параметров распределения.
На приведенных ниже графиках зависимости среднеквадратичного отклонения от количества отброшенных значений показаны примерно одинаковые оценки погрешностей при 200 и 500 подвыборках, что подтверждает предыдущий вывод (рисунки 1 и 2).
Рис. 1. Погрешность оценки в определении стока 1% обеспеченности в зависимости от исключенных значений
Рис. 2 Погрешность оценки в определении стока 95% обеспеченности в зависимости от исключенных значений
Кроме того, графики показывают наличие роста ошибки погрешности определения при уменьшении количества данных в подвыборках. Исключение более 9% значений (5 из 54 исходных значений) из ряда расчётной 95% обеспеченности для большого числа подвыборок (2000) показывает некоторую несимметричность встречаемости величин, и даже появление дополнительных пиков (рисунок 3).
Рис. 3. Встречаемость 95% обеспеченности в количестве подвыборок 2000
Зависимость количества величин и их встречаемости для большого числа подвыборок (2000) при исключении более 5 значений (9% данных) из ряда расчётной 1% обеспеченности показана на рисунке 4.
Рис. 4. Встречаемость 1% обеспеченности в количестве подвыборок 2000
Часто встречаемые значения гидрологических величин 95% обеспеченности (10.8-10.9) имеют меньшее значение, чем средняя величина (11.2). Наличие небольшого пика встречаемости при значениях (11.6-11.8) смещает среднее значение в большую сторону относительно медианы. Этот дополнительный пик встречаемости возник, по всей видимости, при исключении в части выборок данных с крайними значениями, редкими и потому существенно влияющими на результаты. Возможно, что наилучшей оценкой в данном случае будет не весовое среднее, а медиана или значение в районе максимальной вероятности.
Судя по графику для 1% обеспеченности медиана (45.8) немного больше, чем среднее (45.7), хотя разница в этом случае несущественна.
Используемые в настоящее время методы и схемы определения обеспеченных гидрологических характеристик, рекомендуемые в нормативных документах, не позволяют адекватно экстраполировать значения обеспеченностей до 1% и свыше 99%, тем более оценивать ошибки в их определении.
Предлагаемый упрощённый подход (метод) определения параметров распределения гидрологических величин по принципу случайного исключения некоторой части данных и количества подвыборок, генерируемых из исходного набора данных, а также оценки их изменчивости показал свою эффективность. С одной стороны, метод не требует дополнения случайно генерируемыми данными, которые могут привнести свой, заданный параметрами генерации, вклад в оценку параметров. С другой стороны он не требователен к компьютерным ресурсам.
Результатом проведенного исследования явился расчет не только величин обеспеченного годового и меженного стока р. Свияга, но и оценки их разброса при изменении набора данных измерений. Разовые расчёты проводились с помощью программы, написанной на языке python (версия 2.72) на основе современных компьютеров, в том числе, на процессорах Intel Atom Z3740.
Библиографический список
1. Христофоров А.В. Оценка параметров распределения вероятностей величин речного стока/ Метеорология и Гидрология, 1981, №8. С.78-86.
2. Пособие по определению расчетных гидрологических характеристик. Л.: Гидрометеоиздат, 1984.-- 447 с.
3. http://opds.sut.ru/old/electronic_manuals/oed/index.htm#r001.
4. Politis, D.N. and Romano, J.P. (1994). The stationary bootstrap. Journal of American Statistical Association, 89, 1303--1313.
5. Efron, B. (1982). The jackknife, the bootstrap, and other resampling plans. 38. Society of Industrial and Applied Mathematics CBMS-NSF Monographs.
6. Крицкий С.Н., Менкель М.Ф. Гидрологические основы речной гидротехники. Изд. АН СССР, 1950.
7. Соколовский Д.Л. Речной сток. Л.: Гидрометеоиздат, 1968. -- 540 с.
8. СП 33-101-2003. Определение основных расчетных гидрологических характеристик. М.: Госстрой России, ФГУП ЦПП, 2004. -- 73 с.
Размещено на Allbest.ru
...Подобные документы
Расчет допустимого значения диагностического параметра. Определение периодичности профилактики. Расчет надежности (безотказности) заданного механизма, агрегата, системы. Расчет эмпирических характеристик распределения и его теоретических параметров.
курсовая работа [264,0 K], добавлен 11.11.2013Разработка алгоритма статистического моделирования. Вычисление характеристик выборки. Формирование статистического ряда и графическое представление данных. Подбор подходящего закона распределения вероятностей. Определение характеристик надежности системы.
курсовая работа [322,5 K], добавлен 19.08.2014Оценка истинного значения измеряемой величины. Доверительные интервалы для оценки среднего квадратического отклонения нормального распределения. Оценка точности измерений. Оценка вероятности (биномиального распределения) по относительной частоте.
реферат [277,7 K], добавлен 13.10.2013Сбор и обработка информации по надёжности. Определение закона распределения наработки до отказа. Анализ кривых и определение процента гильз, подлежащих обработке под ремонтный размер. Теоретический закон распределения и определение его параметров.
курсовая работа [313,5 K], добавлен 28.03.2012Исследования влияния на nt и рt различных параметров циклов для комбинированного двигателя. Анализ значения КПД и давления при исходных данных. Оценка влияния степени предварительного расширения, степени повышения давления и степени сжатия на значение Pz.
контрольная работа [4,0 M], добавлен 11.06.2012Расчет размерной цепи методом полной, неполной и групповой взаимозаменяемости. Определение суммарной погрешности при фрезерной обработке и погрешности базирования детали. Исследование точности выполнения обработки с помощью кривых распределения.
курсовая работа [526,4 K], добавлен 20.12.2013Техническое описание самолета. Обоснование проектных параметров. Расчет взлетной массы. Компоновка и расчет геометрических параметров основных частей самолета. Коэффициент максимальной подъемной силы. Определение летно-эксплуатационных характеристик.
курсовая работа [891,2 K], добавлен 27.06.2011Расчет размерной цепи методами полной, неполной и групповой взаимозаменяемости, пригонки, регулировки. Определение суммарной погрешности при фрезерной обработке и погрешности базирования. Исследование точности обработки с помощью кривых распределения.
курсовая работа [1,5 M], добавлен 24.12.2013Исследование характеристик свариваемых материалов и технологических параметров сварки. Расчет температурного поля, размеров зон термического влияния с помощью персонального компьютера. Построение изотерм температурного поля и кривых термического поля.
курсовая работа [245,4 K], добавлен 10.11.2013Особенности расчета основных параметров редуктора, этапы оценки его нагрузочной способности. Алгоритм определения параметров зубчатого зацепления, оценка общего передаточного числа редуктора. Основные критерии работоспособности закрытых зубчатых передач.
лабораторная работа [49,4 K], добавлен 11.05.2014Назначение станочного приспособления. Принцип работы универсального переналаживаемого приспособления для обработки детали "Бракет". Расчет погрешности установки. Оценка усилия зажима заготовки в приспособлении и основных параметров зажимного механизма.
курсовая работа [496,9 K], добавлен 08.07.2015Методика количественной оценки параметров качества. Экономически обоснованный выбор необходимых технических параметров машин и механизмов. Проведение технико-экономической оптимизации параметров технической системы - привода ленточного транспортера.
контрольная работа [194,3 K], добавлен 19.10.2013Водопроницаемость, водоупорность и пылепроницаемость текстильных материалов, критерии оценки данных параметров. Оценка сортности натурального и искусственного меха. Принципы и этапы определения воздухопроницаемости пакета одежды. Анализ сорта ткани.
контрольная работа [23,0 K], добавлен 09.07.2015Определение предельного случайного разброса баллистических параметров двигателя (при начальной температуре -50 С): давления, тяги, единичного и полного импульса тяги. Расчет недостающих величин. Группировка и оформление полученных результатов в таблицу.
курсовая работа [76,1 K], добавлен 24.11.2010Строение электродвигателя постоянного тока. Расчет основных параметров, построение естественной и искусственной механических характеристик. Особенности поведения показателей при изменении некоторых данных: магнитного потока, добавочного сопротивления.
контрольная работа [3,8 M], добавлен 08.12.2010Выбор электродвигателя и преобразователя. Определение расчетных параметров силовой цепи. Расчет и построение регулировочных характеристик преобразователя. Статические характеристики разомкнутой системы. Определение параметров обратной связи по скорости.
курсовая работа [286,4 K], добавлен 19.03.2013Выбор и обоснование математической модели. План эксперимента. Проверка нормальности распределения выходной величины. Определение параметров генеральной совокупности. Расчет числа параллельных опытов. Обработка и интерпретация результатов эксперимента.
курсовая работа [333,0 K], добавлен 10.07.2014Классический случай оценивания (Гауссовский). Вычисление классических взвешенных оценок. Определение средней квадратической погрешности. Выявление мешающих параметров непараметрическими методами. Hасчет эффектов гетероскедастичности, оценка корреляции.
лабораторная работа [725,6 K], добавлен 11.03.2012Анализ влияния микроструктуры графита на свойства чугунов. Графит и механические свойства отливок. Расчет зависимости параметра формы от минимального размера учитываемых включений. Гистограмма распределения параметра формы по количеству включений.
курсовая работа [2,6 M], добавлен 08.02.2013Характеристика технических средств, обеспечивающих получение навигационной информации на судне. Расчет суммарной инерционной погрешности гирокомпасов и оценка их влияния на точность судовождения. Девиация магнитного компаса, лаг и расчет поправок эхолота.
курсовая работа [31,0 K], добавлен 08.03.2011