Задача кластеризации зерен пшеницы
Измерение геометрических свойств зерен пшеницы. Агломеративный алгоритм иерархической классификации. Процедура создания кластеров. Градиентный алгоритм кластеризации, основанный на классической Ньютоновской процедуре. Величина стандартного отклонения.
Рубрика | Сельское, лесное хозяйство и землепользование |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 11.01.2013 |
Размер файла | 335,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
«Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева»
Институт информатики и телекоммуникаций
Кафедра системного анализа и исследования операций
Курсовая работа
по дисциплине «Кластерный анализ»
на тему:
Выполнил: студенты группы БС-91
очной формы обучения
Ломаев Юрий Сергеевич
Куприн Артём Геннадьевич
Проверил: профессор кафедры САиИО
Попов Евгений Александрович
Красноярск 2012 г.
Содержание
1. Постановка задачи
2. Описание алгоритмов
3. Реализация
4. Результаты исследований
5. Список литературы
1. Постановка задачи
На основе измерения геометрических свойств зёрен пшеницы необходимо классифицировать зёрна по их принадлежности к сортам.
Рассматриваемая группа содержала зёрна, принадлежащие к различным сортам пшеницы. Высокое качество визуализации внутренней структуры зёрен было получено при помощи рентгеновской техники. Этот метод значительно дешевле, чем другие более сложные методы визуализации, такие как сканирующая микроскопия или лазерные технологии. Изображения зёрен пшена были записаны на рентгеновские пластины KODAK размерностью 13х18 см. Исследования проводились с использованием объединенного рассмотрения собранных зёрен пшеницы, произрастающих на опытных полях в Институте Агрофизики Польской академии наук в Люблине. Набор данных может быть использован для задач классификации и кластерного анализа.
Рис.1. Зёрна пшена на рентгеновской пластине
Характеристики (атрибуты):
Для формирования данных были измерены 7 геометрических параметров зёрен пшена:
1) область расположения зёрен;
2) длина зерна;
3) ширина зерна;
4) периметр P;
5) компактность C = ;
6) коэффициент асимметрии;
7) длина зернового просвета.
Все эти параметры - вещественные и непрерывные.
2. Описание алгоритмов
А) Агломеративный алгоритм иерархической классификации
На вход агломеративного алгоритма подается разбиение S(0) = (S1(0), S2(0), …, Sn(0)), где Si(0) = Xi (i-ый объект множества объектов Х). Разбиение k-го уровня имеет вид S(k) = (S1(k), S2(k), …, Sn-k(k)) и строится из разбиения S(k-1), k1, путем объединения пары классов (S1*, S2*),
где (S1*, S2*) = (S1*, S2*).
Результатом работы агломеративного алгоритма является система вложенных разбиений S(0) S(1) S(2) … S(n-1) множества объектов X, где S(n-1) = X и S(k) = (S1(k), S2(k), …, Sn-k(k)) - разбиение k-го уровня.
В случае иерархической классификации подходящий результат классификации можно выбрать, анализируя дендрограмму - графическую иллюстрацию иерархии. Дендрограмма - оцифрованный граф иерархии. На одной из осей графика отложено значение индексации графа иерархии, вдоль другого направления отображается структура образовывающихся в результате попарного слияния подмножеств разбиений. При этом любое сечение линией v = const, где v - индексация, есть разбиение. Хорошей классификацией можно считать разбиение, которое получается в области значений v, соответствующее большому его скачку до получения нового разбиения. Иерархическая классификация с помощью бинарного алгоритма всегда даёт бинарную иерархию.
В зависимости от применяемых для работы алгоритма мер близости (S1, S2) между классами могут получаться разные иерархии. Вычисления расстояний между множествами опираются на правила вычисления расстояний между объектами. Примерами вычислений расстояний между объектами могут служить метрики: квадрат евклидова расстояния, евклидова метрика, ситиблок, чебышевское расстояние, степенное расстояние, процент несогласия, коэффициент корреляции Пирсона.
Б) Параллельный алгоритм k-средних
Параллельные процедуры - это процедуры, в которых вся выборка сразу поступает на классификацию.
В алгоритме k-средних единственным управляющим параметром является число классов, на которые производится разбиение S = (S1, S2, …, Sk) выборки Х. В результате получается несмещённое разбиение S* = (S1*, S2*, …, Sk*).
I) Выберем начальное разбиение S0 = (S10, S20, …, Sk0), где Sl0 = (), , = , l ?l'.
II) Пусть построено m-е разбиение Sm = (S1m, S2m, …, Skm). Вычислим набор средних em = (e1m, e2m, …, ekm), где
III) Построим минимальное дистанционное разбиение, порождаемое набором em, и возьмём его в качестве Sm+1 = (S1m+1, S2m+1, …, Skm+1), т.е.
……………………………………………
, где d(X, e) = ||X - e|| - расстояние в Rp.
IV) Если Sm+1? Sm, то переходим к пункту 2, заменив m на m+1.
Если Sm+1= Sm, то полагаем Sm+1= S* и заканчиваем работу алгоритма.
Введём расстояние d(X, e) от точки X Rp до множества e = (e1, …, ek), где ej Rp по формуле: Тогда можно рассмотреть статистический выброс выборки X относительно множества
e = (e1, …, ek): F(X,e) = .
Определим статистический выброс F(S) разбиения S = (S1, …, Sk) выборки X как разброс этой выборки относительно множества
e(S) = (e1(S), …, ek(S)), где ej(S) - средний вектор класса Sj, т.е. полагается, что F(S) = F(X, e(S)). Непосредственно из построения минимального дистанционного разбиения следует формула:
F(S) = .
Так как на последовательности разбиений S0, S1, …, Sm, …, которая строится в алгоритме k-средних, функционал F(S) не возрастает, то для любого начального разбиения алгоритм через конечное число шагов заканчивает работу.
Содержательная процедура алгоритма k-средних направлена на поиск разбиения S* выборки Х с минимальным разбросом.
В) Параллельный эвристический алгоритм k-эталонов
Пусть для классификации имеется выборка O1, O2,…, On, причем i-ый объект характеризуется вектором признаков Хi = (x1, x2, …, xp). Рассмотрим р-мерное признаковое пространство вместе с функцией d(Xi, Xl), задающей в Rp расстояние (либо степень близости).
I) Выберем k эталонов X1*, X2*,…, Xk* и порог d0.
II) Поставим в соответствие объекту Оi код из k двоичных символов еi = (еi1, еi2, …, еik), где еil = 1, если d(Xi, Xl) ? d0, и еil = 0 в противном случае.
Разобьем выборку на классы, отнесся к одному из классов объекты с одинаковым кодом. В зависимости от порога d0 и геометрии выборки число классов может варьироваться от 1 до 2k. После анализа разбиения выборки на классы исследователь может уточнить выбор эталонов и перейти к следующей итерации алгоритма. Набор эталонов можно составлять из случайно выбранных точек.
Г) Метод главных компонент: аппроксимация данных линейными многообразиями
Метод главных компонент применяется к данным, записанным в виде матрицы X - прямоугольной таблицы чисел размерностью I строк и J столбцов.
Рис.2. Матрица данных
Традиционно строки этой матрицы называются образцами. Они нумеруются индексом i, меняющимся от 1 до I. Столбцы называются переменными, и они нумеруются индексом j= 1, …, J.
Цель МГК - извлечение из этих данных нужной информации. Что является информацией, зависит от сути решаемой задачи. Данные могут содержать нужную нам информацию, они даже могут быть избыточными. Однако, в некоторых случаях, информации в данных может не быть совсем.
Размерность данных - число образцов и переменных - имеет большое значение для успешной добычи информации. Лишних данных не бывает - лучше, когда их много, чем мало.
Передадим суть метода главных компонент, используя интуитивно-понятную геометрическую интерпретацию. Начнем с простейшего случая, когда имеются только две переменные x1 и x2. Такие данные легко изобразить на плоскости.
Рис. 3. Графическое представление двумерных данных
Каждой строке исходной таблицы (т.е. образцу) соответствует точка на плоскости с соответствующими координатами. Они обозначены пустыми кружками на Рис. 3. Проведем через них прямую, так, чтобы вдоль нее происходило максимальное изменение данных. На рисунке эта прямая выделена синим цветом; она называется первой главной компонентой. Затем спроецируем все исходные точки на эту ось. Получившиеся точки закрашены красным цветом. Теперь можно сделать предположение, что на самом деле все экспериментальные точки и должны были лежать на этой новой оси. Просто какие-то неведомые силы отклонили их от правильного, идеального положения. Тогда все отклонения от новой оси можно считать шумом, т.е. ненужной нам информацией. Проверить шум ли это, или все еще важная часть данных, можно поступив с этими остатками так же, как поступили с исходными данными - найти в них ось максимальных изменений. Она называется второй главной компонентой. И так надо действовать, до тех пор, пока шум уже не станет действительно шумом, т.е. случайным хаотическим набором величин.
В общем, многомерном случае, процесс выделения главных компонент происходит так:
1. Ищется центр облака данных, и туда переносится новое начало координат - это нулевая главная компонента (синяя точка на рис.4).
2. Выбирается направление максимального изменения данных - это первая главная компонента.
3. Если данные описаны не полностью (шум велик), то выбирается еще одно направление - перпендикулярное к первому, так чтобы описать оставшееся изменение в данных и т.д.
Рис. 4. Графическое представление метода главных компонент
МГК начинался с задачи наилучшей аппроксимации конечного множества точек прямыми и плоскостями. Пусть дано конечное множество векторов x1, x2,…, xm Rn. Для каждого k = 0, 1, …, n - 1 среди всех k-мерных линейных многообразий в Rn найти такое Lk Rn, что сумма квадратов уклонений xI от Lk минимальна:
где - евклидово расстояние от точки до линейного многообразия. Всякое k-мерное линейное многообразие в Rn может быть задано множеством линейных комбинаций Lk = , где bi пробегают вещественную прямую R, a0 Rn , - ортонормированный набор векторов. В координатной форме:
Решение задачи аппроксимации для k = 0,1, …, n - 1 даётся набором вложенных линейных многообразий L0 L1 L2 … Ln-1. Эти линейные многообразия определяются ортонормированным набором векторов (векторами главных компонент) и вектором a0:
Это выборочное среднее: . Векторы главных компонент могут быть найдены как решения однотипных задач оптимизации:
1) централизуем данные: . Теперь ;
2) находим первую главную компоненту как решение задачи:
Если решение не единственно, то выбираем одно из них.
3) Вычитаем из данных проекцию на первую главную компоненту:
;
4) Находим вторую главную компоненту как решение задачи:
Если решение не единственно, то выбираем одно из них.
2k-1) Вычитаем проекцию на (k-1)-ую главную компоненту:
;
2k) находим k-ую главную компоненту:
геометрический зерно пшеница кластеризация
Если решение не единственно, то выбирается одно из них.
Д) Полный градиентный алгоритм кластеризации
Первоначально считаем, что существует набор m-элементов n-мерного пространства: x1, x2, …, xm Rn. Будем считать, что случайная выборка получена из n-мерной случайной величины X с плотностью распределения f. Оценка плотности распределения рассматривается как:
,
где h - коэффициент размытости, xi - экспериментальная точка из выборки, - гауссово ядро.
Сделаем предположение, что особенности кластеров связаны с локальными экстремумами функции . Тогда элементы кластеров могут переноситься в направлении градиента с соответствующим фиксированным шагом. Вышеописанная идея итеративно выполняется при помощи градиентного алгоритма кластеризации, основанного на классической Ньютоновской процедуре:
, для j = 1,…, m.
,
где k = 0, …, k*, b > 0, , z - шаг, k* - число шагов.
Для полного алгоритмического описания градиентного алгоритма необходимо сделать следующее:
· построить оценку ;
· сформулировать критерий остановки(число k*);
· определить процедуры для создания кластеров и назначение им конкретных элементов множества;
· анализ влияния значений параметров на полученный результат.
Критерий остановки - алгоритм должен быть остановлен после того, как выполняется условие на k-м шаге:
, где a0 > 0 и
,
, где d(.) - Евклидова метрика в Rn.
D0, Dk-1, Dk - сумма расстояний между отдельными элементами множества.
Процедура создания кластеров - строится на исследовании следующего набора:
, состоящего из элементов множества после k-го шага.
После этого формируется набор взаимных расстояний из вышеперечисленных элементов:
, где i = 1, …, m-1; j = 1, …, m.
Их размерность задаётся как .
Следующий шаг - найти подходящий с высокой точностью «первый» локальный экстремум функции из интервала (0, D), где
D = max , i = 1, …, m-1; j = 1, …, m.
Для этой цели рассчитывается величина стандартного отклонения на основе найденного набора взаимных расстояний, после чего значение элемента выбирается из множества, где - целая часть числа 100D до нахождения первого (наименьшего) из них, удовлетворяющего условию:
> и
Размещено на Allbest.ru
...Подобные документы
Особенности пшеницы как объекта хранения. Влияние почвенно-климатических условий и агротехнических приемов на качество и сохранность пшеницы. Характеристика способов хранения пшеницы. Послеуборочная обработка продукции. Требования к качеству пшеницы.
дипломная работа [3,2 M], добавлен 20.12.2013Продовольственное зерно пшеницы - важная сельскохозяйственная продукция. Морфо-биологические особенности озимой пшеницы, технология ее возделывания. Агрометеорологические условия формирования урожая озимой пшеницы в ООО "Обоянское агрообъединение".
дипломная работа [229,8 K], добавлен 03.03.2013Определение почвенно-климатических особенностей хозяйства. Ботаническая характеристика и биологические особенности яровой пшеницы. Подготовка семян пшеницы к посеву, севооборот, система удобрения и уход за всходами. Планирование урожайности пшеницы.
курсовая работа [242,1 K], добавлен 13.02.2015Характеристика зернового хозяйства Украины. Стратегия выращивания пшеницы в рыночных условиях Украины. Особенности выращивания пшеницы в годы с неблагоприятными и благоприятными климатическими условиями. Проблемы семеноводства пшеницы и зерновых культур.
реферат [22,2 K], добавлен 01.06.2010Гельминтоспориоз пшеницы. Распространение и вредоносность болезни. Мучнистая роса. Остроконечная глазчатая пятнистость пшеницы. Офиоболез пшеницы. Пыльная головня. Ржавчина. Ринхоспориозная пятнистость. Септориоз листьев и колоса. Сетчатая пятнистость.
реферат [29,1 K], добавлен 25.12.2003Народнохозяйственное значение яровой пшеницы, ее биологические и морфологические особенности, химический состав зерна. Влияние обработки почвы на продуктивность урожая. Технология и методика производства спирта из яровой пшеницы, рецептура водок.
курсовая работа [120,7 K], добавлен 27.06.2013Морфологические и биологические характеристики озимой пшеницы. Повышение продуктивности и эффективности возделывания озимой пшеницы посредством подбора схем протравливания семян, опрыскивания фунгицидами и оптимизации защиты культуры от болезней.
дипломная работа [873,3 K], добавлен 17.02.2016Технология и организация механизированных сельскохозяйственных работ. Сорта озимой пшеницы. Агротехнические требования к внесению минеральных и органических удобрений. Основная задача вспашки. Основные эксплуатационные затраты при работе тракторов.
курсовая работа [52,7 K], добавлен 29.03.2010Классификация, характеристика и химический состав зерна пшеницы. Осуществление лабораторного контроля за качеством зерна, принятого на хранение. Определение количества клейковины, влажности, степени зараженности вредителями, стекловидности зерна пшеницы.
дипломная работа [329,3 K], добавлен 14.05.2012Народно-хозяйственное значение озимой пшеницы, биологические особенности и ботаническая характеристика данной культуры. Общее описание исследуемого хозяйства, метеорологические условия, расчет экономической эффективности возделывания озимой пшеницы.
курсовая работа [76,3 K], добавлен 20.06.2013Значение яровой пшеницы как основной сельскохозяйственной культуры и ее биологические особенности. Динамика нарастание биомассы. Азотный режим почвы. Экономическая эффективность яровой пшеницы при разных сроках посева. Безопасность жизнедеятельности.
дипломная работа [83,3 K], добавлен 16.07.2010Ботанико-морфологические особенности яровой пшеницы. Методика сортоиспытания зерновых культур и определения чистой продуктивности фотосинтеза. Структура урожая и урожайность. Оценка качества зерна. Агротехника возделывания яровой пшеницы, уход за посевом.
дипломная работа [673,9 K], добавлен 24.02.2014Биологические особенности озимой пшеницы. Технология возделывания озимой пшеницы. Место в севообороте. Особенности обработки почвы, удобрение, посев. Агроэкологические условия продуктивной фотосинтетической деятельности посевов озимой пшеницы.
дипломная работа [183,9 K], добавлен 09.08.2004Особенности и признаки яровой пшеницы. Оценка влияния климатических условий на элементы структуры ее урожая и влияния предшественников на продуктивность. Расчет экономической эффективности возделывания сортов яровой пшеницы по различным предшественникам.
дипломная работа [256,2 K], добавлен 28.06.2010Биологические и морфологические особенности яровой пшеницы. Факторы, влияющие на качество урожая. Характеристика почвенно-климатических зон Красноярского края. Анализ качества клейковины, количественно-качественных показателей продовольственной пшеницы.
дипломная работа [67,3 K], добавлен 14.03.2011Особенности выращивания яровой пшеницы, характеристики ее районированных сортов. Некоторые новые сорта яровой пшеницы и требования, предъявляемые к ним. Технология возделывания махорки и табака. Уход за посевами картофеля и меры борьбы с вредителями.
контрольная работа [29,9 K], добавлен 14.07.2009Исследование влияния применения вспашки, проводимой обычным и оборотным плугом, нулевой, плоскорезной и комбинированной обработок почвы на развитие и продуктивность озимой пшеницы. Влияние применения гербицидов на величину урожайности озимой пшеницы.
дипломная работа [664,1 K], добавлен 25.05.2012Народно-хозяйственное значение культуры. Морфологическая характеристика культуры. Фазы роста и развития яровой пшеницы. Влияние биостимулятора Радифарм и микроудобрения Гидромикс на урожайность яровой пшеницы в условиях Северо-Казахстанской области.
дипломная работа [967,8 K], добавлен 29.03.2015Описание фаз вегетации и особенностей роста и развития озимой пшеницы как сельскохозяйственной культуры. Анализ полеводства в ООО "Авангард-Агро-Орел": почвы и агроклиматические условия. Технология возделывания озимой пшеницы: посев, уход, уборка урожая.
курсовая работа [59,8 K], добавлен 31.03.2019Целесообразность применения гербицидов против мятликовых и двудольных сорняков на посевах яровой пшеницы первой культурой после чистого пара в зернопаровом севообороте. Оценка экономической эффективности производства пшеницы при использовании гербицидов.
курсовая работа [72,9 K], добавлен 23.02.2012