Анализ данных морфометрических характеристик стволов лиственных пород
Исследование методов анализа данных на конкретных таксационных показателях древостоя, определение влияния и взаимосвязи между ними. Анализ тесноты связи между признаками методами построения корреляционной матрицы и однофакторного дисперсионного анализа.
Рубрика | Сельское, лесное хозяйство и землепользование |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 20.04.2017 |
Размер файла | 732,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РФ
Федеральное государственное БЮДЖЕТНОЕ образовательное учреждение высшего образования
российский государственный аграрный университет - МСха имени К.А. Тимирязева
(ФГБОУ ВО ргау - МСХА имени К.А. Тимирязева)
Факультет почвоведения, агрохимии и экологии
Кафедра лесоводства и мелиорации ландшафтов
КУРСОВАЯ РАБОТА
По дисциплине: «Методы обработки лесохозяйственной информации»
На тему: «Анализ данных морфометрических характеристик стволов лиственных пород»
ОГЛАВЛЕНИЕ
Введение
Глава 1. Аналитическая часть
1.1 Анализ данных в лесном хозяйстве
1.1.1 Лесоустройство и лесная таксация
1.1.2 Охрана и защита лесов
1.1.3 Воспроизводство лесов
1.2 Теоретические сведения по методам анализа данных
1.2.1 Предобработка данных
1.2.2 Корреляция
1.2.3 Дисперсионный анализ
1.2.4 Восстановление регрессии
1.2.5 Поиск структуры в данных
1.2.6 Классификация
1.2.7 Методология CRISP-DM
Глава 2. Практическая часть
2.1 Начальное изучение данных
2.2 Предобработка данных
2.3 Построение корреляционной матрицы
2.4 Дисперсионный анализ
2.5 Восстановление регрессии
2.6 Кластеризация данных
2.7 Построение классификационной модели
Заключение
Список литературы
ВВЕДЕНИЕ
Эффективность ведения современного лесного хозяйства определяется полнотой научных сведений как о естественном формировании лесных фитоценозов, так и под воздействием хозяйственных мероприятий. Достоверность этих сведений оценивается путем статистической обработки цифрового материала, полученного в результате целенаправленно спланированного эксперимента и последующей производственной проверки.
Каждый из существующих статистических методов имеет свои возможности и ограниченную область применения, продиктованную спецификой эксперимента. При этом все они служат экспериментатору средством выявления закономерностей, позволяющих сделать выводы и заключения в условиях неопределенности. Достоверно полученные результаты наблюдений, представление выявленных закономерностей в виде статистических моделей следует рассматривать в практическом приложении в качестве основы применения количественных методов моделирования и оптимизации экономических, технологических, экологических и других процессов и явлений. [3]
Цель курсовой работы: произвести анализ данных морфометрических характеристик стволов лиственных пород.
Задачи работы:
- теоретически осветить методы анализа данных
- изучить взаимовлияния и выявить взаимосвязи между таксационными показателями данного древостоя.
древостой таксационный корреляционный дисперсионный
ГЛАВА 1. АНАЛИТИЧЕСКАЯ ЧАСТЬ
1.1 Анализ данных в лесном хозяйстве
1.1.1 Лесоустройство и лесная таксация
Лесоустройство -- комплексная дисциплина. Она базируется на многих других дисциплинах и тесно связана с ними. Наиболее тесную связь лесоустройство имеет с лесной таксацией, так как все данные о лесном фонде, необходимые для проектирования, оно получает в результате таксации леса.
Анализ данных - призван дать основы выявления и представления в математической интерпретации закономерностей, которым подчинены различные природные, биологические явления, их изменения под воздействием всевозможных технологических операций [3].
1.1.2 Охрана и защита лесов
С помощью анализа данных в области охраны и защиты леса осуществляются:
Предупреждение лесных пожаров;
Мониторинг пожарной опасности в лесах и лесных пожаров;
Разработка и утверждение планов тушения лесных пожаров.
Выявление в лесах вредных организмов (растений, животных, болезнетворных организмов, способных при определенных условиях нанести вред лесам или лесным ресурсам), оценка их количества и опасности.
Лесозащитное районирование (определение зон слабой, средней и сильной лесопатологической угрозы);
Лесопатологический мониторинг [1].
1.1.3 Воспроизводство лесов
Огромная территория лесной и лесостепной зон европейской части страны характеризуется очень большим разнообразием климатических и почвенных условий, типов леса, интенсивности ведения хозяйства, способов рубки и лесовосстановления.
В деле повышения продуктивности лесов немалое значение имеет решение вопроса о разработке совершенных приемов управления этим комплексным процессом, наряду с лесоводственными и агротехническими приемами включающим методы организации и планирования. Выполнение данного требования становится возможным благодаря внедрению программированных принципов и системного анализа. Моделирование природных и производственных процессов позволяет решить задачи, стоящие перед разработчиками автоматизированных систем управления для плановых расчетов [6].
1.2 Теоретические сведения по методам анализа данных
1.2.1 Предобработка данных
Описательные статистики -- это различные вычисляемые показатели, характеризующие распределение значений переменной. Эти показатели условно можно разбить на несколько групп.
Первая группа -- меры центральной тенденции, вокруг которых «группируются» данные: среднее значение, медиана и мода.
Вторая группа характеризует изменчивость значений переменной относительно среднего: стандартное отклонение и дисперсия.
Диапазон изменчивости характеризуется минимумом, максимумом и размахом. Асимметрия и эксцесс представляют меру отклонения формы распределения от нормального вида. Кроме того, существуют величины, выражающие погрешности некоторых статистик: стандартная ошибка среднего, стандартная ошибка асимметрии и стандартная ошибка эксцесса [5].
1.2.2 Корреляция
Отличительной чертой лесохозяйственных объектов является многообразие признаков, характеризующих каждый из них. Так, дерево можно характеризовать возрастом, размерами, объемом, другими различными таксационными показателями. Имея однородную совокупность объектов, можно изучить распределение их по любому из их признаков. Достаточно часто можно усмотреть известную связь между вариациями по различным признакам. Например, чем больше размеры дерева, тем обычно больше объем его стволовой части.
Для лесохозяйственных объектов связь менее «жесткая»: объекты с одинаковым значением одного признака имеют, как правило, разные значения по другим признакам. Такую связь между вариациями разных признаков называют корреляцией между признаками.
Математической мерой корреляции двух случайных величин служит корреляционное отношение, либо коэффициент корреляции [4]. Коэффициент корреляции r может принимать значения от +1 до -1. При полной прямой корреляции r=+1, при полной обратной - r = -1. При r ? 0 прямолинейная связь отсутствует (криволинейная связь при этом может наблюдаться). Обычно считают, что при r=0,1…0,3 связь слабая, при r = 0,3…0,7 - средняя, при r>0,7 - сильная или тесная [3].
Цель корреляционного анализа -- обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют [8].
Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона. Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена [8].
Важно отметить, что установление корреляции между признаками само по себе еще не дает оснований делать какие-либо заключения о причинно-следственных связях между ними. В некоторых случаях корреляция вызывается тем, что один признак является следствием другого, например, корреляция между объемом ствола дерева и запасом на единицу площади. Задачей предстоящего анализа будет лишь установление самого факта корреляции и отыскание подходящих численных характеристик для выражения степени этой корреляции [3].
1.2.3 Дисперсионный анализ
Сущность дисперсионного анализа заключается в изучении статистического влияния одного или нескольких факторов на результативный признак. Под результативным признаком в данном случае понимается свойство объектов, изучаемое как результат влияния различных факторов: организованных (учтенных) и неорганизованных (неучтенных) в данном исследовании. Фактор же - это любое влияние или состояние, которое отражается на разнообразии результативного признака. При помощи дисперсионного анализа можно количественно измерить силу влияния того или иного фактора и определить достоверность этого влияния.
Градация факторов - это степень их действия или состояние объектов изучения. Градациями факторов в лесном хозяйстве могут быть разные дозы вносимых удобрений, разная температура почвы и окружающего воздуха, разная густота или полнота естественных и искусственных древостоев, разный класс бонитета, разный возраст и т. д. Число градаций исследуемого признака устанавливается в процессе составления методики и уточнения ее при сборе материала.
Если во все градации подбирается одинаковое число наблюдений (например, пробных площадей), комплекс называется равномерным, неодинаковое число наблюдений - неравномерным. Если градации двух- или многофакторных комплексов заполнены неодинаковым числом наблюдений, но так, что они по градациям одного фактора находятся в одинаковом отношении в градациях всех остальных факторов, такой комплекс называется пропорциональным. Равномерные и пропорциональные комплексы называются ортогональными. При исследовании количественных признаков в градации комплекса заносятся варианты - числовые результаты измерения признака у каждого отдельного объекта. При изучении количественных признаков в градации комплекса заносится число объектов с наличием признака и общее число объектов. Под дисперсией понимают наличие разнообразия в группе и первичную меру, которая определяет степень этого разнообразия. Она равна сумме квадратов отклонений: вариант (конкретных числовых измерений) от общей и частных средних или частных средних от общей средней [3].
1.2.4 Восстановление регрессии
Математические выражения, отражающие взаимосвязи и взаимодействия в системах (или модели связи) являются основными типами моделей, применяемых в области лесного дела. В качестве математической формы эмпирических моделей связи в основном используют регрессионные уравнения и реже - интерполяционные многочлены. В первом случае применяют различные модификации метода наименьших квадратов, позволяющие просто и достаточно надежно оценить статистическим путем разрабатываемую модель. Второй метод сводится к механической процедуре аналитического выражения числовых массивов.
Для вычисления коэффициентов регрессионных уравнений основным методом является метод наименьших квадратов, предложенный в начале XIX в. Лежандром и Гауссом. Требование метода наименьших квадратов заключается в том, чтобы теоретические точки линии регрессии были получены таким образом, чтобы сумма квадратов отклонений от этих точек эмпирических значений была минимальной.
Методом регрессионного анализа получены практически все наиболее содержательные биометрические закономерности в лесном деле. Однако метод наименьших квадратов имеет существенные недостатки чисто познавательного плана: во-первых, по своей сути он не учитывает природной сущности изучаемого явления и допускает известный произвол в выборе конкретных типов уравнений, а во-вторых, предполагает детерминированный характер изучаемого процесса.
Поэтому в последнее время все большее внимание привлекают вероятностные модели (особенно для отражения процессов, протекающих во времени), использующие методы теории случайных функций. Если для разработки модели связи информация еще не собрана, то планирование работ позволяет значительно улучшить результаты, так как лучше потратить часть времени и средств для предварительной оценки ситуации, выбора независимых переменных и их анализа. Главное здесь, как и во многих других случаях применения математических средств, это точная формулировка задачи и преследуемых целей. Будем применять следующие термины: адекватность модели - соответствие исходным данным, подтвержденное статистическими критериями; корректность - ее приемлемость (с точки зрения пользователя), соответствие моделируемому процессу или системе. Так, формальные статистические методы могут подтвердить высокую вероятность адекватности модели, но особенности информации, преимущественно в малых выборках, могут привести к результатам, неприемлемым с точки зрения существа явления; иначе говоря, корректную модель следует считать в известном смысле лучшей. Модели, имеющие одну независимую переменную, называют одномерными, а более двух переменных - многомерными (множественные регрессионные уравнения).
Наконец, по форме модели связи могут быть представлены в табличном, графическом или аналитическом виде. Регрессионные уравнения бывают линейные и нелинейные, причем этот термин может относиться как к коэффициентам уравнения, так и к независимой переменной. В данной работе рассматриваются уравнения линейные относительно коэффициентов, поскольку модели такого рода вполне достаточны для моделирования связей в лесном деле [3].
1.2.5 Поиск структуры в данных
Для поиска структуры в данных используется кластерный анализ, который производится для перехода от исходной совокупности множества переменных (или объектов) к существенно меньшему числу факторов (кластеров).
Кластерный анализ, как правило, применяется для того, чтобы уменьшить число объектов путем их группировки. Другими словами, в процедуре кластерного анализа обычно переменные не группируются, а выступают в качестве критериев для группировки объектов.
При кластерном анализе вычисляется расстояние между текущим объектом и всеми остальными объектами, и кластер образует та пара, для которой расстояние оказалось наименьшим. Подобным образом каждый объект группируется либо с другим объектом, либо включается в состав существующего кластера. Процесс кластеризации конечен и продолжается до тех пор, пока все объекты не будут объединены в один кластер. Разумеется, подобный результат в общем случае не имеет смысла, и необходимо самостоятельно определить, в какой момент кластеризация должна быть прекращена.
В контексте кластерного анализа особое место занимает один из его видов, называемый иерархическим кластерным анализом. Этот вид кластерного анализа чаще используется в биологии, экономике, социологии [5].
1.2.6 Классификация
Существует несколько методов классификации: Байесовские, метрические и линейные. В данной работе используется Байесовский метод классификации, а именно нормальный дискриминантный анализ. Байесовский подход является классическим в теории распознавания образов и лежит в основе многих методов. Он опирается на теорему о том, что если плотности распределения классов известны, то алгоритм классификации, имеющий минимальную вероятность ошибок, можно выписать в явном виде.
Нормальный дискриминантный анализ -- это специальный случай байесовской классификации, когда предполагается, что плотности всех классов py(x), y ? Y являются многомерными нормальными. Этот случай интересен и удобен тем, что задача оценивания параметров распределения по выборке решается аналитически [2].
Качество классификации оценивают по данным показателям, путем построения матрицы ошибок:
- Доля правильных ответов;
- Доля неправильных ответов;
- Точность и полнота.
1.2.7 Методология CRISP-DM
Проекты анализа данных должны быть повторяемыми и должны надежно исполняться с предсказуемыми результатами. Следование единой методике позволяет успешно повторять проекты, упрощает планирование и управление ими.
Преимущества методологии:
Пригодность для любой сферы деятельности;
Возможность использования любых инструментов;
Основной упор на интеллектуальном анализе данных, то есть на процессе обнаружения в сырых данных неизвестных нетривиальных практически-полезных доступных интерпретаций знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Основные этапы проекта анализа данных:
- Понимание бизнеса (предметной области);
- Понимание данных;
- Подготовка данных;
- Моделирование;
- Оценка;
- Внедрение.
ГЛАВА 2. ПРАКТИЧЕСКАЯ ЧАСТЬ
2.1 Начальное изучение данных
Для выполнения курсовой работы был получен набор данных со следующими признаками, выраженными в числовом формате: возраст, диаметр, высота, Фито масса стволов, масса ветвей стволов. В текстовом формате в набор данных вошли порода и происхождение.
Возраст - число лет, прошедших с момента возникновения древостоя, как совокупности деревьев, являющейся основным компонентом насаждения. Разделяется на преобладающий - возраст преобладающего поколения древостоя, и средний - возраст, средневзвешенный по запасу различных возрастных групп деревьев, образующих данный древостой [11].
Диаметр - это средняя толщина древесных стволов, определенная на высоте 1,3 м от шейки корня дерева. Среднеарифметический диаметр определяется как частное от деления суммы диаметров всех деревьев элемента леса на число деревьев. Среднеквадратический диаметр определяется путем деления суммы площадей сечений деревьев всех ступеней толщины на общее число деревьев [1].
Высота -- это средняя высота совокупности деревьев в насаждении, относящихся к основной породе, основному возрастному поколению и основному ярусу. Зависит от древесной породы, условий местопроизрастания, возраста и осуществляемых хозмероприятий. Используется для определения класса бонитета; служит одним из запасообразующих компонентов [7].
Фитомасса - общая масса живого органического вещества растений, составная часть биологической массы. Различают фитомассу надземную и подземную. Соотношение надземной и подземной фитомассы в разных типах растительных сообществ существенно различается и может меняться в зависимости от времени года. В данной работе используются данные фитомассы стволов в коре (кг) и фитомасса веток деревьев (дм3) .
2.2 Предобработка данных
В предобработку данных входят описательная статистика по имеющимся признакам и гистограммы распределения их значений и взаимосвязей.
Таблица 1 - Описательная статистика
Показатель |
А, лет |
D, см |
H, м |
Pst, дмі |
Pbr |
|
Среднее |
55,66316 |
18,12526 |
17,02926 |
382,85 |
67,70954 |
|
Медиана |
3,802887 |
1,678211 |
0,986035 |
66,85819 |
13,31528 |
|
Мода |
37 |
12,2 |
14,94 |
54,3 |
11,31 |
|
Стандартное отклонение |
107 |
4,6 |
25,7 |
- |
- |
|
Дисперсия выборки |
37,06596 |
16,35718 |
9,610676 |
651,653 |
129,7813 |
|
Эксцесс |
1373,885 |
267,5572 |
92,3651 |
424651,6 |
16843,18 |
|
Асимметричность |
-1,61902 |
0,005428 |
-1,2282 |
4,091907 |
6,545202 |
|
Интервал |
0,420558 |
1,00856 |
0,132689 |
2,133348 |
2,609696 |
|
Минимум |
106 |
61,8 |
34,6 |
3072,235 |
601,79 |
|
Максимум |
12 |
0 |
0 |
0,065 |
0,01 |
|
Сумма |
118 |
61,8 |
34,6 |
3072,3 |
601,8 |
|
Счет |
5288 |
1721,9 |
1617,78 |
36370,75 |
6432,406 |
|
Уровень надежности (95,0%) |
95 |
95 |
95 |
95 |
95 |
|
Коэф-т вариации |
66,5898 |
90,2452 |
56,4362 |
170,2111 |
191,6736 |
|
Коэф-т дифференциации |
84,8907 |
90,2452 |
56,4362 |
170,2400 |
191,7019 |
|
Точность опр-ния ср. величины |
6,8320 |
9,2590 |
5,7902 |
17,4633 |
19,6653 |
|
t коэф. дифференциации |
14,6371 |
10,8003 |
17,2705 |
5,7263 |
5,0851 |
|
t коэф. вариации |
16,2374 |
15,2740 |
24,4241 |
8,0968 |
7,1904 |
|
t точности опр. ср. вел. |
20,7000 |
15,2740 |
24,4241 |
8,0982 |
7,1914 |
По представленным значениям достоверности показателей, определено, что во всех случаях величина t более трех. Данный факт свидетельствует о достоверности рассчитанных статистических показателей.
Для того чтобы увидеть, как распределяются значения признака строится гистограмма распределения (рис.1-5).
Рис.1 - Гистограмма распределения значений возраста
Рис.2 - Гистограмма распределения значений диаметра
Рис.3 - Гистограмма распределения значений высоты
Рис.4 - Гистограмма распределения значений фитомассы стволов
Рис.5 - Гистограмма распределения значений массы ветвей стволов
Нормальное распределение характерно для непрерывных случайных величин, с присущей ему закономерностью: чем ближе к центру распределения, тем плотность вероятности выше.
С помощью уравнения, свойственного нормальному распределению можно рассчитать вероятность появления нового значения случайной величины t в интервале той или иной ширины и дать статистическую оценку - найти интервал значений признака, в котором с той или иной вероятностью заключено значение генерального параметра.
По данным гистограммам, исходя из их формы, можно сделать вывод, что нормальное распределение свойственно только таксационному признаку высота, с поправкой на то что он делится на два распределения: до 19 м и после 19 м.
Таблица 2 - Взаимосвязь показателей
Возраст |
Диаметр |
Высота |
Фитомасса стволов в коре |
Фитомасса веток деревьев |
||
Возраст |
- |
|||||
Диаметр |
- |
|||||
Высота |
- |
|||||
Фитомасса ствола в коре |
- |
|||||
Фитомасса веток деревьев |
- |
По полученным попарным визуализациям показателей, можно сделать вывод, что существует прямая взаимосвязь - между возрастом и диаметром, высотой и диаметром, возрастом и высотой, высотой и фитомассой стволов в коре, возрастом и фитомассой веток деревьев; криволинейная - между диаметром и фитомассой веток деревьев фитомассой ствола в коре и высотой, фитомассой веток деревьев и высотой.
2.3 Построение корреляционной матрицы
Цель: методом построения корреляционной матрицы выявить тесноту связи между признаками.
Таблица 4 - Корреляция Пирсона
А |
D |
Н |
Pst |
Pbr |
|||
А |
r |
1,000 |
0,819 |
0,857 |
0,659 |
0,550 |
|
Р значение |
0,000 |
0,000 |
0,000 |
0,000 |
|||
N |
95 |
95 |
95 |
95 |
95 |
||
D |
r |
0,819 |
1,000 |
0,917 |
0,927 |
0,867 |
|
Р значение |
0,000 |
0,000 |
0,000 |
0,000 |
|||
N |
95 |
95 |
95 |
95 |
95 |
||
Н |
r |
0,857 |
0,917 |
1,000 |
0,750 |
0,663 |
|
Р значение |
0,000 |
0,000 |
0,000 |
0,000 |
|||
N |
95 |
95 |
95 |
95 |
95 |
||
Pst |
r |
0,659 |
0,927 |
0,750 |
1,000 |
0,927 |
|
Р значение |
0,000 |
0,000 |
0,000 |
0,000 |
|||
N |
95 |
95 |
95 |
95 |
95 |
||
Pbr |
r |
0,550 |
0,867 |
0,663 |
0,927 |
1,000 |
|
Р значение |
0,000 |
0,000 |
0,000 |
0,000 |
|||
N |
95 |
95 |
95 |
95 |
95 |
Нормальное распределение, как выяснилось ранее, свойственно только показателю высота. Следовательно, тесноту связи между показателями, в данном случае, можно определить с помощью корреляции Пирсона (таблица 4).
Исходя из полученных данных, линейная тесная связь (больше 0,7) выявлена между следующими показателями: возраст тесно связан с диаметром и высотой; у диаметра тесная связь со всеми показателями; высота имеет связь с возрастом, диаметром и фитомассой стволов; фитомасса стволов связанна со всеми, кроме возраста; фитомасса веток деревьев связанна с диаметром и фитомассой стволов.
Таблица 5 - Корреляция Спирмена
А |
D |
Н |
Vt |
Pbark |
|||
А |
r |
1,000 |
0,853 |
0,857 |
0,849 |
0,804 |
|
Р значение |
0,000 |
0,000 |
0,000 |
0,000 |
|||
N |
95 |
95 |
95 |
95 |
95 |
||
D |
r |
0,853 |
1,000 |
0,974 |
0,997 |
0,979 |
|
Р значение |
0,000 |
0,000 |
0,000 |
0,000 |
|||
N |
95 |
95 |
95 |
95 |
95 |
||
Н |
r |
0,857 |
0,974 |
1,000 |
0,978 |
0,941 |
|
Р значение |
0,000 |
0,000 |
0,000 |
0,000 |
|||
N |
95 |
95 |
95 |
95 |
95 |
||
Vt |
r |
0,849 |
0,997 |
0,978 |
1,000 |
0,976 |
|
Р значение |
0,000 |
0,000 |
0,000 |
0,000 |
|||
N |
95 |
95 |
95 |
95 |
95 |
||
Pbark |
r |
0,804 |
0,979 |
0,941 |
0,976 |
1,000 |
|
Р значение |
0,000 |
0,000 |
0,000 |
0,000 |
|||
N |
95 |
95 |
95 |
95 |
95 |
Для выявления тесноты связи между возрастом и фитомассой ствола в коре, и фитомассой веток с другими показателями, применяется корреляция Спирмена (таблица 5), так как данные переменные не являются нормально распределенными.
Исходя из полученных данных, прямая тесная связь (больше 0,7) выявлена между восраста с фитомассой ствола и фитомассой веток.
Ограничение применения данного метода вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных. Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость не линейна. [8]
Для того чтобы точно определить коррелируют ли признаки между собой, необходимо посмотреть на график визуализации и сопоставить значения коэффициентов корреляций с точечными диаграммами. Таким образом, между данными признаками существуют корреляционные связи прямые по характеру и криволинейные по форме.
2.4 Дисперсионный анализ
Цель: изучить влияние происхождения на среднюю высоту древостоя методом однофакторного дисперсионного анализа.
Таблица 6 - Результаты дисперсионного анализа
Источник |
Сумма квадратов типа III |
ст.св. |
Средний квадрат |
F |
Значимость |
||
Свободный член |
Гипотеза |
22939,658 |
1 |
22939,658 |
94,956 |
0,008 |
|
ошибка |
531,578 |
2,200 |
241,583a |
||||
Происхождение |
Гипотеза |
1323,345 |
2 |
661,673 |
38,289 |
0,000 |
|
ошибка |
4130,190 |
239 |
17,281b |
Исходя из полученных данных, можно сделать вывод, что происхождение пород статистически достоверно влияет на значение высоты, так как Р-значение меньше заданного уровня значимости 0,05.
2.5 Восстановление регрессии
Вычисляя методами математического анализа минимум выражения, для одномерной модели, можно получить систему так называемых нормальных уравнений, в которых неизвестными величинами являются искомые параметры (численные коэффициенты) уравнения регрессии [7]. Качество модели необходимо оценить с помощью отложенной (тестовой) выборки.
Множественное линейное (относительно коэффициентов и независимых переменных) регрессионное уравнение зависимости высоты от диаметра для полинома первой степени имеет вид:
У =9,695349+0,461654*Х
Где х - степень полинома
Для 2 степени: у = =4,872551+1,006787*Х-0,00959*Х^2
Для 3 степени: у = 2,909732+1,381098*х-0,025512*х^2+0,00018*x^3 и т.д.
Таблица 7 - Средние квадраты ошибок для выборок
Степень полинома |
Средний квадрат ошибки обучающей выборки |
Средний квадрат ошибки для тестовой выборки |
|
1 |
10,9 |
45,6 |
|
2 |
5,2 |
10 |
|
3 |
4,8 |
5,1 |
|
4 |
4,3 |
13,2 |
|
5 |
4,27 |
14,95 |
|
6 |
4,06 |
7,7 |
|
7 |
3,73 |
7,9 |
|
8 |
3,67 |
12,8 |
|
9 |
3,4 |
6,6 |
|
10 |
3,4 |
6,2 |
Рис. 6 - Средний квадрат ошибки обучающей и тестовой выборки
По данным графикам можно заметить, что средний квадрат ошибки на обучающей выборке с увеличением степени падает, на тестовой падает до 3 степени и затем возрастает. Для модели следует выбрать третью степень полинома.
Взаимовлияния в лесных объектах обусловливают широкое применение множественной регрессии, т. е. регрессионных уравнений с несколькими аргументами.
Выявление множественной связи при помощи регрессии
Множественное линейное регрессионное уравнение:
Ln(У)=-0,8545+0,0855*ln(х1)-0,3238*ln(x2)+2,9411*ln(x3)-1,6659*ln(x4)+0,2991*ln(x5)
Где, х - закодированные переменные
Таблица 8 - Обозначения переменных
Закодированная переменная |
Признак |
t-статистика |
Р-значение |
|
Y-пересечение |
Pbr |
-1,35046595 |
0,180290564 |
|
Переменная X 1 |
Порода |
1,180167115 |
0,241078478 |
|
Переменная X 2 |
А, лет |
-2,114251028 |
0,037290569 |
|
Переменная X 3 |
D, см |
5,964092817 |
4,88486E-08 |
|
Переменная X 4 |
H, м |
-5,535641996 |
3,09528E-07 |
|
Переменная Х 5 |
Pst |
-1,35046595 |
0,180290564 |
Нулевая гипотеза о равенстве регрессионного коэффициента нулю не отклоняется если Р-значение больше 0,05, то есть регрессионный коэффициент возраста статистически не значимый. Следовательно, возраст не оказывают существенного влияния на фитомассу коры.
R-квадрат равен 0,9673
Коэффициент детерминации свидетельствует о том, что в 96 процентах случаях, разработанная регрессия соответствует реальным изменениям объема ствола в коре от других показателей.
Значимость F = 1,7186Е-64
Значения F-критерия Фишера также указывают на достоверность полученной регрессии, так как значения теоретических F-критериев оказались меньше значений расчётных F-критериев на пятипроцентном уровне значимости (при Р<0,05).
2.6 Кластеризация данных
Задача кластеризации заключается в следующем. Имеется обучающая выборка и функция расстояния между объектами. Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике, а объекты разных кластеров существенно отличались. При этом каждому объекту приписывается метка (номер) кластера.
Таблица 9 - Порядок агломерации (кластеров)
Порядок агломерации (кластеров) |
|||||||
Этап |
Объединенный кластер |
Коэффициенты |
Этап первого появления кластера |
Следующий этап |
|||
Кластер 1 |
Кластер 2 |
Кластер 1 |
Кластер 2 |
||||
1 |
81 |
82 |
0,102 |
0 |
0 |
9 |
|
2 |
89 |
90 |
0,984 |
0 |
0 |
14 |
|
3 |
91 |
92 |
1,074 |
0 |
0 |
11 |
|
4 |
7 |
40 |
1,235 |
0 |
0 |
18 |
|
5 |
83 |
84 |
1,483 |
0 |
0 |
9 |
|
6 |
94 |
95 |
1,6 |
0 |
0 |
19 |
|
7 |
85 |
86 |
2,845 |
0 |
0 |
17 |
|
8 |
79 |
88 |
3,118 |
0 |
0 |
24 |
|
9 |
81 |
83 |
3,547 |
1 |
5 |
26 |
|
10 |
21 |
37 |
3,983 |
0 |
0 |
16 |
|
11 |
87 |
91 |
3,989 |
0 |
3 |
27 |
|
12 |
28 |
38 |
4,203 |
0 |
0 |
22 |
|
13 |
6 |
39 |
4,486 |
0 |
0 |
30 |
|
14 |
89 |
93 |
4,557 |
2 |
0 |
19 |
|
15 |
2 |
8 |
4,73 |
0 |
0 |
42 |
|
16 |
21 |
26 |
5,068 |
10 |
0 |
21 |
|
17 |
27 |
85 |
5,419 |
0 |
7 |
26 |
|
18 |
1 |
7 |
6,604 |
0 |
4 |
30 |
|
19 |
89 |
94 |
8,048 |
14 |
6 |
24 |
|
20 |
34 |
72 |
8,105 |
0 |
0 |
29 |
|
21 |
21 |
36 |
12,609 |
16 |
0 |
28 |
|
22 |
28 |
35 |
13,841 |
12 |
0 |
25 |
|
23 |
32 |
33 |
16,272 |
0 |
0 |
28 |
|
24 |
79 |
89 |
18,312 |
8 |
19 |
27 |
|
25 |
25 |
28 |
19,26 |
0 |
22 |
35 |
|
26 |
27 |
81 |
19,847 |
17 |
9 |
32 |
|
27 |
79 |
87 |
20,307 |
24 |
11 |
41 |
|
28 |
21 |
32 |
29,804 |
21 |
23 |
37 |
|
29 |
23 |
34 |
30,226 |
0 |
20 |
39 |
|
30 |
1 |
6 |
30,792 |
18 |
13 |
32 |
|
31 |
47 |
48 |
47,71 |
0 |
0 |
55 |
|
32 |
1 |
27 |
59,747 |
30 |
26 |
35 |
|
33 |
3 |
9 |
66,54 |
0 |
0 |
47 |
|
34 |
19 |
30 |
67,318 |
0 |
0 |
40 |
|
35 |
1 |
25 |
74,069 |
32 |
25 |
41 |
|
36 |
4 |
10 |
74,55 |
0 |
0 |
46 |
|
37 |
21 |
24 |
80,75 |
28 |
0 |
42 |
|
38 |
49 |
62 |
88,28 |
0 |
0 |
55 |
|
39 |
22 |
23 |
111,227 |
0 |
29 |
47 |
|
40 |
19 |
71 |
128,801 |
34 |
0 |
50 |
|
41 |
1 |
79 |
143,971 |
35 |
27 |
48 |
|
42 |
2 |
21 |
147,998 |
15 |
37 |
48 |
|
43 |
11 |
80 |
172,3 |
0 |
0 |
50 |
|
44 |
14 |
70 |
197,486 |
0 |
0 |
71 |
|
45 |
12 |
31 |
223,048 |
0 |
0 |
54 |
|
46 |
4 |
18 |
243,521 |
36 |
0 |
52 |
|
47 |
3 |
22 |
243,737 |
33 |
39 |
52 |
|
48 |
1 |
2 |
310,764 |
41 |
42 |
58 |
|
49 |
43 |
44 |
374,44 |
0 |
0 |
57 |
|
50 |
11 |
19 |
392,772 |
43 |
40 |
54 |
|
51 |
13 |
20 |
461,22 |
0 |
0 |
67 |
|
52 |
3 |
4 |
614,781 |
47 |
46 |
58 |
|
53 |
61 |
76 |
622,56 |
0 |
0 |
63 |
|
54 |
11 |
12 |
792,912 |
50 |
45 |
64 |
|
55 |
47 |
49 |
847,255 |
31 |
38 |
65 |
|
56 |
50 |
63 |
939,9 |
0 |
0 |
77 |
|
57 |
42 |
43 |
1049,18 |
0 |
49 |
74 |
|
58 |
1 |
3 |
1234,489 |
48 |
52 |
70 |
|
59 |
15 |
45 |
1424,38 |
0 |
0 |
69 |
|
60 |
56 |
78 |
1495,43 |
0 |
0 |
81 |
|
61 |
54 |
64 |
1675,83 |
0 |
0 |
73 |
|
62 |
16 |
69 |
1971,65 |
0 |
0 |
79 |
|
63 |
46 |
61 |
2049,22 |
0 |
53 |
71 |
|
64 |
11 |
29 |
2296,981 |
54 |
0 |
70 |
|
65 |
47 |
75 |
2300,808 |
55 |
0 |
76 |
|
66 |
17 |
52 |
2360,44 |
0 |
0 |
76 |
|
67 |
5 |
13 |
2450,485 |
0 |
51 |
69 |
|
68 |
41 |
51 |
3676,97 |
0 |
0 |
77 |
|
69 |
5 |
15 |
4118,847 |
67 |
59 |
75 |
|
70 |
1 |
11 |
4471,779 |
58 |
64 |
74 |
|
71 |
14 |
46 |
5142,455 |
44 |
63 |
75 |
|
72 |
57 |
66 |
7111,73 |
0 |
0 |
81 |
|
73 |
54 |
55 |
8104,175 |
61 |
0 |
83 |
|
74 |
1 |
42 |
8469,946 |
70 |
57 |
82 |
|
75 |
5 |
14 |
8631,38 |
69 |
71 |
79 |
|
76 |
17 |
47 |
9639,598 |
66 |
65 |
88 |
|
77 |
41 |
50 |
11575,07 |
68 |
56 |
78 |
|
78 |
41 |
53 |
15561,7 |
77 |
0 |
83 |
|
79 |
5 |
16 |
18736,37 |
75 |
62 |
82 |
|
80 |
68 |
73 |
19933,43 |
0 |
0 |
84 |
|
81 |
56 |
57 |
24819,81 |
60 |
72 |
89 |
|
82 |
1 |
5 |
37871,04 |
74 |
79 |
91 |
|
83 |
41 |
54 |
39608,52 |
78 |
73 |
88 |
|
84 |
67 |
68 |
42087,02 |
0 |
80 |
86 |
|
85 |
65 |
77 |
55643,8 |
0 |
0 |
89 |
|
86 |
58 |
67 |
61264,71 |
0 |
84 |
90 |
|
87 |
59 |
74 |
76932,3 |
0 |
0 |
90 |
|
88 |
17 |
41 |
118162,3 |
76 |
83 |
91 |
|
89 |
56 |
65 |
143600,1 |
81 |
85 |
92 |
|
90 |
58 |
59 |
203679,5 |
86 |
87 |
92 |
|
91 |
1 |
17 |
345787 |
82 |
88 |
94 |
|
92 |
56 |
58 |
580063,1 |
89 |
90 |
93 |
|
93 |
56 |
60 |
1952432 |
92 |
0 |
94 |
|
Подобные документы
Сущность и значение молочной промышленности. Теоретические основы статистического анализа объемов реализации молока. Построение группировки и выявление взаимосвязи с основными факторами методами дисперсионного, корреляционно-регрессионного анализа.
курсовая работа [97,3 K], добавлен 15.05.2009Анализ особенностей количественных характеристик лесоматериалов. Сбор, тестирование и применение спектральных баз данных различных пород древесины. Устройство портативного прибора идентификации лесо- и пиломатериалов лиственных и хвойных пород древесины.
контрольная работа [806,5 K], добавлен 16.11.2015Планирование однофакторного полевого опыта для условий конкретного колхоза или другого сельскохозяйственного предприятия. Определение схемы дисперсионного анализа для получения в опыте урожайности и цифровой информации. Методика взятия образцов почвы.
контрольная работа [27,2 K], добавлен 20.12.2010Планирование однофакторного полевого опыта для условий конкретного сельскохозяйственного предприятия. Схема дисперсионного анализа для получения в опыте урожайности и другой цифровой информации. Оценка вариантов по урожайности, определение лучшего из них.
контрольная работа [2,6 M], добавлен 25.10.2010Особенности всесторонней материальной оценки и составление технической характеристики (таксационной описания и плана) насаждений леса. Характеристика методов измерения и учета отдельных деревьев и древостоев. Оценка лесосек по данным ленточного пересчета.
контрольная работа [193,7 K], добавлен 18.04.2015Анализ и выравнивание динамических рядов. Вариационные ряды. Статистическая группировка земельно-кадастровых показателей и построение статистических таблиц. Определение тесноты связи между результатирующим фактором и иными факторами.
курсовая работа [311,4 K], добавлен 10.05.2003Определение таксационных показателей древостоя. Сортиментация леса по сортиментным и товарным таблицам. Материально–денежная оценка лесосек по данным сплошного пересчета и по материалам лесоустройства. Расчет лесосек главного пользования и их анализ.
курсовая работа [84,8 K], добавлен 24.03.2011Понятие и значение агрономического эксперимента как полевого опыта на специальном земельном участке. Проведение дисперсионного анализа урожайности ячменя и картофеля в ходе однофакторного полевого опыта, заложенного методом рандомизированных повторений.
контрольная работа [2,8 M], добавлен 23.08.2016Определение выраженности характеристик поведения собак. Отбор данных, проверка гипотезы о нормальном распределении. Корреляционный и регрессионный анализ данных. Породы собак, которые подходят для охраны, семьи с детьми, активных прогулок, дрессировки.
курсовая работа [2,7 M], добавлен 22.10.2014Материал стволов охотничьего оружия и его механические свойства. Изготовление стволов: их оксидирование, клейма. Испытание стволов ружей. Дефекты стволов. Повреждения стволов: дефекты сверловки, искривление стволов пайкой и планками. Причины аварий.
реферат [4,8 M], добавлен 10.04.2008Особенности межпородного скрещивания свиней, оценка продуктивности свиней. Характеристика некоторых пород свиней, разводимых в РБ. Краткая характеристика селекционно-гибиридного центра. Оценка мясных и откормочных качеств. Анализ корреляционной связи.
контрольная работа [55,7 K], добавлен 13.08.2010Гибридизация, ее виды и значение в животноводстве. Трудности в проведении гибридизации, ее особенности в различных отраслях животноводства. Определение корреляционной связи между величиной удоя матерей и дочерей. Расчет эффекта селекции по удою.
курсовая работа [402,4 K], добавлен 17.12.2014Порядок проведения расчета стоимости древостоя с использованием лесных податей на древесину. Лесные подати на древесину лесообразующих пород, отпускаемых на корню на территории ХМАО. Анализ общей стоимости лесных ресурсов с эксплуатационными ресурсами.
практическая работа [12,6 K], добавлен 22.04.2010Методика составления таблиц динамики основных таксационных показателей древостоев. Статистические показатели основных таксационных признаков древостоев. Математические модели роста древостоев по диаметру, высоте и запасу и их графическая интерпретация.
курсовая работа [1,2 M], добавлен 26.06.2012Исследование аномалии развития хрусталика. Изучение морфометрических особенностей глаза у различных пород собак. Этиология, патогенез и диагностика возрастной катаракты. Хирургическое и консервативное лечение заболевания. Расчет рефракционной силы линзы.
реферат [1,5 M], добавлен 14.05.2014Инвентаризация леса по таксационным элементам и материальная оценка лесного фонда по частям и в целом. Техника таксационных работ. Расчет показателей таксации древостоя. Сортиментация леса по сортиментным таблицам. Ведомость материальноденежной оценки.
курсовая работа [312,8 K], добавлен 08.11.2011Годичные слои, сердцевинные лучи: строение и вид на основных разрезах ствола у разных пород. Защита пиломатериалов хвойных и лиственных пород от растрескивания. Пороки строения древесины. Лущеный облицовочный шпон. Стандартизация продукции из древесины.
контрольная работа [850,4 K], добавлен 17.06.2009Дифференциация деревьев в лесу. Основные классификации древесных пород и характеристика классов деревьев. Средний и текущий приросты древостоя. Факторы, влияющие на интенсивность самоизреживания в лесу. Зависимость количества деревьев от возраста леса.
реферат [19,7 K], добавлен 29.03.2011Болезни стволов хвойных пород. Патогенные микроорганизмы, развивающиеся на коре, хвоинках растений и вызывающие ослабление и гибель деревьев. Внешние признаки и диагностика по фазам развития; общее состояние дерева, распространение, меры защиты и надзор.
курсовая работа [37,5 K], добавлен 28.11.2013Рассмотрение основных характеристик почв и климатических условий в Костанайской области. Анализ хозяйственной деятельности ТОО "Аккол". Изучение содержания основных элементов питания почв в данном предприятии. Оценка влияния удобрений на урожай зерна.
дипломная работа [627,6 K], добавлен 03.07.2015