Классификация семян облепихи на основе использования методов вариационной статистики

Оценка эмпирического распределения стереометрических показателей семян облепихи на принадлежность вариантов к различным генеральным совокупностям методами вариационной статистики. Корреляция между распределениями проекций почек мужских, женских саженцев.

Рубрика Экономико-математическое моделирование
Вид статья
Язык русский
Дата добавления 24.11.2020
Размер файла 128,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http: //www. allbest. ru/

Классификация семян облепихи на основе использования методов вариационной статистики

А.А. Аникьев, Е.П. Куминов, В.Н. Спиридонов

Методами вариационной статистики оценивали эмпирическое распределение стереометрических показателей семян облепихи на принадлежность вариантов к различным генеральным совокупностям. Рассматривается возможность разделения семян, из которых формируются мужские и женские растения, на основе интервалов соотношений линейных проекций.

Summary

CLASSIFICATION OF Hippophae rhamnoides SEEDS BY THE VARIATION STATISTIC METHOD

A.A. Anik'ev, E.P. Kuminov, V.N. Spiridonov

The empirical density of probability distribution function of the Hippophae seeds linear size is analyzed. The supposition about the variants belonging to the different general combination was verified. It is shown that the empirical function of probability distribution can be distribute on two function each of them is the normal distribution function describing the total combination of the distributions probably belonging to the men and women plants. The origin of the peaks detected on the tails of empirical distribution function is the subject of individual research.

Основная часть

В селекционной работе часто появляется необходимость разделения объектов по конкретному признаку на группы и классификация последних. При этом могут быть использованы как стандартные методы вариационной статистики (для количественных признаков), так и построение шкал на основе качественной балльной оценки объектов (1, 2).

Однако нередко признак не выражен на ранних этапах исследования, а проявляется только на последующих фазах развития, как, например, половые признаки у растений облепихи. Поэтому возникает проблема разделения семян, из которых формируются мужские и женские особи, когда заранее не известно, сколько сеянцев разных форм будет получено в питомниках, а для уверенного разделения по цветкам требуется ждать 3-5 лет. В связи с этим целью наших исследований была разработка метода альтернативного разделения семян облепихи по стереометрическим показателям на основе использования средств вариационной статистики.

Рис. 1 Схематический вид фронтальной проекции семени облепихи сорта Любимая

Описание методики. Объектом исследования служили семена облепихи сорта Любимая (n = 181), у которых на первом этапе под микроскопом (x20) определяли окраску и качество семенной кожуры (спермодермы), проводили линейные и угловые измерения стереометрических проекций.

Семена можно разделить на две-три группы по линейным размерам фронтальной проекции (рис. 1), а также по форме халазального и микропилярного полюсов. Форму семени в первом приближении описывают следующие параметры: АВ -- максимальное расстояние между полюсами, DЕ -- наибольший поперечный размер фронтальной проекции (DE АB).

Форма семени определяется соотношением

х = а/b (где а = АВ, b = DЕ)

и может представлять собой либо эллипс, вытянутый в горизонтальном или вертикальном направлении (соответственно х > 1 или х < 1), либо быть близкой к окружности (х 1).

Форма рубчика на микропилярном полюсе описывается уравнением

y = 1 - d,

характеризующим глубину расщепления семени

d = с/а, где с = АС

-- расстояние между халазальным полюсом и точкой наибольшего углубления рубчика. При максимальном расщеплении семени y = 1, при отсутствии такового y = 0. Значения х по выборке семян приведены в таблице 1.

По виду кривой функции эмпирического распределения можно предположить, что выборка является комплексной и не соответствует ни одному из известных распределений (рис. 2).

Характер «спадания» кривой на концевых участках и провал между максимальными точками могут свидетельствовать о существовании по крайней мере двух, вероятно, нормальных распределений разнокачественных выборок, соединенных в одной.

Для проверки этой гипотезы мы использовали следующие основные

1. Соотношение линейных проекций семян облепихи сорта Любимая

Порядковый номер варианта

x = a/b

Поряд. номер варианта

x = a/b

Порядковый номер варианта

x = a/b

Порядковый номер варианта

x = a/b

1

1,640

47

1,980

93

2,065

139

2,164

2

1,662

48

1,983

94

2,065

140

2,171

3

1,677

49

1,988

95

2,066

141

2,172

4

1,693

50

1,992

96

2,067

142

2,179

5

1,713

51

1,993

97

2,068

143

2,179

6

1,721

52

1,997

98

2,069

144

2,181

7

1,743

53

1,998

99

2,074

145

2,181

8

1,771

54

2,000

100

2,079

146

2,182

9

1,774

55

2,002

101

2,084

147

2,182

10

1,801

56

2,003

102

2,085

148

2,184

11

1,807

57

2,007

103

2,085

149

2,184

12

1,808

58

2,007

104

2,087

150

2,189

13

1,811

59

2,007

105

2,090

151

2,190

14

1,817

60

2,007

106

2,095

152

2,190

15

1,822

61

2,008

107

2,097

153

2,191

16

1,837

62

2,008

108

2,099

154

2,200

17

1,845

63

2,009

109

2,102

155

2,202

18

1,855

64

2,014

110

2,103

156

2,211

19

1,863

65

2,015

111

2,104

157

2,211

20

1,869

66

2,015

112

2,106

158

2,220

21

1,871

67

2,016

113

2,107

159

2,224

22

1,879

68

2,016

114

2,108

160

2,237

23

1,885

69

2,018

115

2,108

161

2,238

24

1,887

70

2,019

116

2,109

162

2,248

25

1,897

71

2,020

117

2,110

163

2,258

26

1,905

72

2,026

118

2,111

164

2,261

27

1,909

73

2,028

119

2,112

165

2,273

28

1,910

74

2,028

120

2,113

166

2,278

29

1,913

75

2,030

121

2,116

167

2,283

30

1,923

76

2,032

122

2,120

168

2,285

31

1,928

77

2,034

123

2,122

169

2,296

32

1,933

78

2,036

124

2,122

170

2,302

33

1,938

79

2,036

125

2,122

171

2,317

34

1,943

80

2,037

126

2,128

172

2,324

35

1,947

81

2,039

127

2,129

173

2,368

36

1,951

82

2,039

128

2,132

174

2,369

37

1,956

83

2,042

129

2,133

175

2,391

38

1,960

84

2,047

130

2,135

176

2,477

39

1,960

85

2,050

131

2,135

177

2,485

40

1,970

86

2,055

132

2,140

178

2,519

41

1,970

87

2,056

133

2,142

179

2,538

42

1,976

88

2,056

134

2,142

180

2,558

43

1,976

89

2,060

135

2,147

181

2,682

44

1,978

90

2,063

136

2,149

45

1,978

91

2,063

137

2,150

46

1,980

92

2,065

138

2,158

Примечание: а и b -- соответственно максимальное расстояние между полюсами и наибольший поперечный размер фронтальной проекции семени.

статистические параметры: х -- вариант выборки, -- средняя генеральной совокупности (математическое ожидание), 2 -- дисперсия, -- среднее квадратическое отклонение, которые рассчитывали по общепринятым методам (табл. 2) (1).

2. Основные показатели выборки семян облепихи сорта Любимая по соотношению линейных проекций и статистические параметры вариационного ряда

xmin

xmax

х

2

Выбор семян

1,6402

2,6824

2,0655

0,0282

0,1678

Вариационный ряд

1,7431

2,3911

2,06256

0,01647

0,12834

Примечание. Описание показателей см. в тексте.

При распределении выборочной совокупности в вариационный ряд отдельные крайние варианты могут значительно отклоняться от соседних, в связи с чем возникает сомнение в их принадлежности к генеральной совокупности. Причинами этого могут служить либо технические ошибки, допущенные при образовании выборочной совокупности, либо значительная вариабельность признака.

Если варианты попали в выборку случайно и не принадлежат к генеральной совокупности, их следует отбросить. Простым и достаточно точным способом статистической оценки таких вариантов является нормирование сомнительных данных по отношению к средней арифметической.

При этом за «нулевую» гипотезу принимается предположение о принадлежности отклоняющихся вариантов к той же генеральной совокупности, что и все остальные. Критерием оценки «нулевой» гипотезы служит нормированное отклонение

= .

Рис. 2 Распределение частоты соотношений линейных проекций семян облепихи сорта Любимая по классам

Вариант x выбраковывают, ес-ли он выходит за пределы довери-тельного интервала при намеченном пороге вероятности (по правилу «3»). Для оценки принадлежности вариантов вариационного ряда к генеральной совокупности следует определить варьирование признака относительно среднего значения. Выбраковку вариантов, остающихся за пределами доверительного интервала, мы проводили по Румшинскому (P = 0,95):

= t(P) + 100 = 1,960 + = 1,979, [1]

где t(P) и t100(P) -- критерий Стьюдента при доверительной вероятности Р и числе степеней свободы соответственно n = и n = 100.

Нижняя и верхняя границы доверительного интервала для рассматриваемой совокупности составляли соответственно - = 1,73352 и + = 2,39755. Для определения необходимого и достаточного объема выборки оценивали достоверность статистических параметров по критерию Стьюдента (см. табл. 2). Математическое ожидание было получено с достоверностью

, [2]

где

= /

-- погрешность оценки выборочной средней, а tm 166, что превышает табличное значение при n = 169 (tтабл. = 3,29 при р = 0,001, или Р = 0,999), то есть результаты измерений являются достоверными.

Достоверность оценки среднего квадратического отклонения определяли по соотношению

t = /, [3]

где

= /.

Следовательно,

18,9,

что также превышает табличное значение при уровне значимости 0,1 %. По критерию Стьюдента математическое ожидание, дисперсия и среднее квадратическое отклонение достоверны. Возможное отклонение от хi при принятой доверительной вероятности (P = 0,95) обозначим как «желаемую точность» ():

= t,

где -- выборочное среднее квадратическое отклонение от средней, t -- критерий Стьюдента. Поскольку

, то = t, отсюда n = .

Значение t определяется ожидаемой вероятностью выборочной оценки. При P = 0,95 и t = 1,96 соседние варианты различаются в среднем на 0,026, что мы и приняли за «желаемую точность» (см. табл. 1). Тогда необходимый объем выборки (n = = 160) оказывается меньше исследуемого, что свидетельствует о достоверности полученных результатов.

При построении вариационного ряда для сохранения точности исходных данных наряду с оценкой количества необходимых интервалов для функции эмпирического распределения мы рассчитывали функции и для пограничных классов, с тем чтобы не потерять основные повторяющиеся характеристики для дальнейшего анализа.

Максимальное число классов по формуле Брукса и Карузерс K 5 lgn и минимальное по формуле Стерджеса K 1 + 3,32 lgn составляло для выборки n = 173 соответственно 9 K 11. Графики распределения частоты встречаемости вариантов по классам приведены на рисунках 2 и 3 (контуры кривых сглажены по средним показателям вариационного ряда). При этом кривые распределения доли вероятности вне зависимости от количества классов носят двугорбый характер (статистические параметры вариационного ряда приведены в таблице 2).

Для того чтобы выяснить, является ли эмпирическое распределение нормальным или может быть аппроксимировано через другие типы распределений, оценивают асимметрию и эксцесс вариационного ряда. При этом коэффициент асимметрии (As) и эксцесс (Ex) рассчитывают по центральному моменту соответственно третьего (3) и четвертого (4) порядков, отнесенных к дисперсии:

As = = , [4]

Ex = = - 3, [5]

где ni -- частота распределения соотношений линейных проекций семян в выборке i-го класса, -- математическое ожидание, -- среднее квадратическое отклонение (табл. 3).

Коэффициент асимметрии принимает значения от -1 до +1, при As 0,2 асимметрия считается незначительной, при As 0,5 распределение оказывается сильно «скошенным» -- варианты группируются в левой или правой части вариационной кривой соответственно при положительной или отрицательной асимметрии. В нашем распределении As = -0,01136 (рассчитывали по формуле [4]).

Эксцесс характеризует форму вершины кривой распределения (острая или плоская). Рассчитанное по формуле [5] значение эксцесса для нашего распределения составляет -0,2316, что свидетельствует о наличии плоской вершины или двугорбости кривой. При Ex = -2 спад кривой распределения достигает оси абсцисс и график представлен двумя различными кривыми. В нашем случае признак не явно выражен, поэтому кривая распределения не разделяется на две. Если исходное распределение не является нормальным, то оно может быть отображено как сумма двух и более нормальных распределений при условии нормирования эмпирических и теоретических показателей площади под кривыми функции.

3. Частота соотношений линейных проекций семян облепихи сорта Любимая в эмпирическом и теоретическом распределении

Номер класса

Значения, характеризующие центр распределения класса

Эмпирическое распределение

Теоретическое распределение

n0

n1

n2

n3

n4

2,008; = 0,050

2,130; = 0,050

1,860; = 0,065

2,296; = 0,045

2,063; = 0,125

1

1,773

4

0

0

4

0

0

0

3

0

3

2

1,831

8

0

0

8

0

0

0

7

0

7

3

1,890

11

3

0

8

0

2

0

7

0

9

4

1,949

16

14

0

2

0

16

0

3

0

19

5

2,008

35

33

2

0

0

31

2

1

0

34

6

2,067

26

14

12

0

0

16

14

0

0

29

7

2,126

31

2

29

0

0

2

30

0

0

32

8

2,185

20

0

19

0

0

0

16

0

0

17

9

2,244

7

0

2

0

5

0

2

0

4

7

10

2,303

8

0

0

0

8

0

0

0

8

8

11

2,362

3

0

0

0

3

0

0

0

3

3

Сумма

67

64

22

16

67

64

21

16

169

169

168

168

Примечание -- математическое ожидание, -- среднее квадратическое отклонение; n0 -- частота соотношений в основной выборке, n1-n4 -- частота соотношений четырех функций распределения, на которые разбивается основная выборка.

Для оценки достоверности показателей асимметрии и эксцесса, являющихся случайными величинами, мы приняли гипотезу о равенстве этих показателей нулю в генеральной совокупности. Тогда выборочные As и Ex должны соответствовать нормальному распределению:

As = , [6]

Ex = 2. [7]

Отсюда условием, опровергающим «нулевую» гипотезу, согласно правилу «3», будут критерии

tAs = 3 и tEx = 3.

Мы рассчитали по формулам [6] и [7], что As = 0,18570, Ex = 20,37139. Поскольку 0,06117 < 3 и 0,62357 < 3, «нулевая» гипотеза принимается и распределение следует считать нормальным.

Отрицательное значение эксцесса свидетельствует о том, что исследуемый вариационный ряд можно разделить на два или более рядов с самостоятельными центрами распределения. В первом приближении мы предположили, что эмпирическое распределение может быть описано следующими двумя функциями нормального распределения:

ѓ1(х) = и ѓ2 (х) = , [8]

где А1 и А2 -- нормировочные коэффициенты, полученные по условию

[9]

где А -- площадь под кривой эмпирического распределения. Достоверность приближения эмпирической кривой (Р = 0,95) к кривым двух распределений (в сумме) оценивали по критериям (Колмогорова--Смирнова) и 2. При достоверном соответствии максимальных значений функции доли вероятности распределений на концевых участках было получено незначительное соответствие, что отразилось на критерии 2, который приближался к критическому значению, составляющему 15,5. В то же время критерий оказался меньше критического, что свидетельствует о соответствии суммарного распределения эмпирическому.

Гипотезу о соответствии эмпирического распределения нормальному пришлось отвергнуть, так как фактический критерий 2 существенно превышал табличное значение (15,5), используемое для разбивки ряда на 11 классов. Критерий , рассчитанный по соотношению максимальной разности между частотой эмпирического и теоретического распределений и корня квадратного из числа вариантов совокупности

( = (p - - pтеор.)max/),

составлял 1,78, что оказалось выше критического (1,36) значения при P = 0,95.

Наибольшее отклонение при оценке по этим критериям выявлено в концевых участках эмпирического распределения, что, возможно, обусловлено двумя причинами: функция частоты распределения подчиняется какому-либо другому типу распределения; имеется дополнительное распределение на концевых участках, связанное с усилением проявления неизвестного признака, обусловливающего формирование как женских, так и мужских растений. В частности, анализ выборок по линейным размерам почек мужских и женских саженцев облепихи показывает четко выраженное разделение каждой функции эмпирического распределения на две, связанные с принадлежностью почек к верхнему или нижнему ярусам на ветви (3). Эти особенности на концевых участках исследуемого распределения можно объяснить влиянием различных условий роста и развития плодов на разных ярусах ветвей как у мужских, так и женских растений.

Первое предположение было проверено аппроксимацией функции эмпирического распределения через биномиальное распределение и распределение Пуассона. Критерии расхождения эмпирических и теоретических кривых частоты по рассчитанным параметрам и 2 существенно превосходили значения, полученные для теоретических кривых нормального распределения. Проверку второго предположения проводили посредством сравнения частоты эмпирического и теоретического распределений, полученных при суммировании четырех нормальных распределений с нормированием площадей и дисперсий по соотношениям [9]. Концевые участки также соответствовали нормальным распределениям, нормированным на единицу. Полученные функции доли вероятности теоретических распределений описывали эмпирическую кривую с высокой точностью (см. рис. 3). При этом критерий расхождения 2 = 2,14 при допустимом значении 15,5.

Рис. 3 Оценка доли вероятности эмпирического и двух теоретических распределений по частоте соотношения линейных проекций семян облепихи сорта Любимая

статистика семя стереометрический саженец

На основе статистического анализа мы получили два распределения по соотношению линейных проекций семян, из которых формируются мужские и женские растения облепихи: соответственно при х = а/b 1,74-2,00 и 2,14-2,39 (Р = 0,95); 1,74-2,02 и 2,12-2,39 (Р = 0,90); 1,74-2,04 и 2,10-2,39 (Р = 0,80); 1,74-2,05 и 2,09-2,39 (Р = 0,70). При этом выявлена корреляция между распределениями геометрических проекций почек мужских и женских саженцев и таковыми соотношений линейных проекций семян, что и позволило отождествить оба типа распределений для отбора мужских и женских особей.

Выводы

Таким образом, анализ эмпирической совокупности стереометрических показателей семян облепихи позволяет методами вариационной статистики выделить два распределения для семян, из которых формируются мужские и женские растения, и составить рекомендации по их разделению на ранних этапах селекционной работы на основе интервалов соотношений линейных проекций при разных уровнях доверительной вероятности.

Литература

Лакин Г.Ф. Биометрия. М., 1973.

Зайцев Г.И. Методика биометрических расчетов. М., 1973.

Аникье в А.А., Спиридонов В.Н. Диагностика семян облепихи методами математической статистики. Тр. Мичуринского ГАУ. Мичуринск, 2001, 3: 196-200.

Размещено на Allbest.ru

...

Подобные документы

  • Определение парных коэффициентов корреляции и на их основе факторов, оказывающих наибольшее влияние на результативный показатель. Анализ множественных коэффициентов корреляции и детерминации. Оценка качества модели на основе t-статистики Стьюдента.

    лабораторная работа [890,1 K], добавлен 06.12.2014

  • Применение методов и формул математической статистики при выполнении расчета показателей эффективности производства, организации рабочего процесса, оценке перспектив и разработке планов развития определенных отраслей промышленности. Расчет добычи угля.

    контрольная работа [497,9 K], добавлен 05.11.2009

  • Вычисление уравнений регрессии для различных показателей продукции. Определение выборочной корреляции между двумя величинами. Расчет коэффициента детерминации и статистики Дарбина-Уотсона. Вычисление выборочной частной автокорреляции 1-го порядка.

    контрольная работа [29,7 K], добавлен 07.05.2009

  • Группировка предприятий по стоимости основных фондов, построение гистограммы распределения, определение моды графическим и аналитическими способами. Оценка объемов продаж товара методами математической статистики. Задача на экономические индексы.

    задача [1,7 M], добавлен 03.02.2010

  • Использование методов линейного программирования для целей оптимального распределения ресурсов. Методы математической статистики в экономических расчетах. Прогнозирование экономических показателей методом простого экспоненциального сглаживания.

    курсовая работа [976,0 K], добавлен 13.08.2010

  • Применение метода аналитической группировки при оценке показателей розничного товарооборота. Определение эмпирического корреляционного отношения, издержек обращения и товарооборота с помощью уравнения линейной регрессии метода математической статистики.

    контрольная работа [316,4 K], добавлен 31.10.2009

  • Закон распределения генеральной совокупности. Вычисление вероятности при помощи распределения Гаусса. Срок действия декларации о соответствии и сертификата соответствия. Применение математической статистики при измерениях и испытаниях продукции.

    презентация [128,7 K], добавлен 30.07.2013

  • Поняття та етапи статистики, її методологічна основа та застосування на практиці. Статистичне забезпечення управлінських заключень щодо вдосконалення податкової системи в Україні. Теорія процесу приймання адміністративних рішень та їх об'єктивізація.

    курсовая работа [1,7 M], добавлен 18.12.2010

  • Построение описательной экономической модели. Матрица корреляций между исходными статистическими признаками. Оценка параметров модели. Определение и графическое изображение регрессионной зависимости между показателями. Оценка адекватности модели.

    контрольная работа [215,8 K], добавлен 13.10.2011

  • Предмет, метод, показатели статистики. Понятия и категории статистического наблюдения. Показатели вариации, абсолютные и относительные величины, графический и индексный методы. Взаимосвязь социально-экономических явлений. Сглаживание рядов динамики.

    курс лекций [132,9 K], добавлен 23.02.2009

  • Статистика - количественная сторона массовых экономико-социальных явлений и их связи с качественной стороной конкретных условий места и времени. Математические основы статистики и использование компьютерных технологий в статистическом исследовании.

    учебное пособие [2,7 M], добавлен 13.03.2008

  • Сущность и роль статистики во взглядах российских ученых. Принятие оптимального решения как предпосылка обеспечения конкурентоспособности. Эволюция статистической науки. Движение от практических потребностей управления к их теоретическому осмыслению.

    контрольная работа [25,4 K], добавлен 30.03.2013

  • Статистический анализ курса Центрального банка валютной пары евро/рубль, построение соответствующих гистограмм. Выполнение описательной статистики выборочных данных, проверка гипотезы о нормальном распределении, равенстве средних и равенстве дисперсий.

    курсовая работа [2,5 M], добавлен 08.07.2015

  • История эконометрики и прикладной статистики. Прикладная статистика в народном хозяйстве. Точки роста. Непараметрическая статистика. Статистика объектов нечисловой природы - часть прикладной статистики.

    реферат [61,6 K], добавлен 08.01.2009

  • Анализ распределений для выявления закономерности изменения частот в зависимости от значений варьирующего признака и анализ различных характеристик изучаемого распределения. Характеристика центральной тенденции распределения и оценка вариации признака.

    лабораторная работа [606,7 K], добавлен 13.05.2010

  • Расчет показателей показательной статистики, построение графического изображения вариационного ряда с их использованием и оценка изучаемого явления, общая характеристика. Расчет средней арифметической, методы расчета. Уровень доверительной вероятности.

    контрольная работа [592,1 K], добавлен 10.02.2009

  • Оценка уравнений парной и множественной регрессии. Ковариация, корреляция, дисперсия. Определение доверительных интервалов для параметров. Статистические уравнения зависимостей. Расчет нормативных микроэкономических показателей хозяйственной деятельности.

    дипломная работа [1,9 M], добавлен 20.10.2014

  • Методология эмпирического анализа детерминант рыночных мультипликаторов. Спецификация модели и выборка эмпирического исследования. Статистика и анализ корреляции детерминант и рыночных мультипликаторов. Модели влияния детерминант на мультипликаторы.

    дипломная работа [2,5 M], добавлен 30.01.2016

  • Решение задачи оптимального закрепления грузоотправителей (ГО) за грузополучателями (ГП) и распределения груза для минимизации транспортной работы методами линейного программирования с использованием MS Excel. Расчет кратчайшего расстояния между ГО и ГП.

    курсовая работа [357,4 K], добавлен 06.03.2013

  • Оценка параметров шестимерного нормального закона распределения с помощью векторов средних арифметических и среднеквадратического отклонений и матрицы парных коэффициентов корреляции (по программе Statistica). Методика определения Z-преобразования Фишера.

    контрольная работа [33,6 K], добавлен 13.09.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.