Параллельные алгоритмы обработки изображений дистанционного зондирования
Роль изображений, получаемых с помощью космических средств дистанционного зондирования Земли в научных исследованиях, промышленных, хозяйственных, военных, других приложениях. Разработка космических аппаратов дистанционного зондирования: алгоритм k-means.
Рубрика | Геология, гидрология и геодезия |
Вид | статья |
Язык | русский |
Дата добавления | 28.05.2018 |
Размер файла | 40,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
УДК 004.75
Казахский национальный университет имени аль-Фараби, механико-математический факультет, Казахстан, г. Алматы
Параллельные алгоритмы обработки изображений дистанционного зондирования
Темирбекова Ж.Е.
Изображения, получаемые с помощью космических средств дистанционного зондирования Земли, играют исключительно важную роль в научных исследованиях, промышленных, хозяйственных, военных и других приложениях. Разработка космических аппаратов дистанционного зондирования и соответствующих наземных комплексов обработки изображений активно ведется во всем мире.
Для анализа гиперспектральных изображений дистанционного зондирования существует много алгоритм кластеризации. Кластеризация - многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Один из наиболее популярных методов кластеризации является алгоритм -means, из-за его легкой реализации, простоте, эффективности и эмпирических успехов.
Алгоритм -means
Основная идея заключается в том, что на каждой итерации перечисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбранной метрике. космический дистанционный зондирование
Алгоритм завершается, когда на какой-то итерации не происходит изменения кластеров. Это происходит за конечное число итераций, так как количество возможных разбиений конечного множества конечно, а на каждом шаге суммарное квадратичное уклонение V уменьшается, поэтому зацикливание невозможно.
-means минимизирует расстояния между объектами в кластерах. Минимизируемая функция в случае -means такова: объект кластеризации - центр кластера.
На момент старта алгоритма должно быть известно число (количество кластеров). Выбор числа может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.
Описание алгоритма. Первоначальное распределение объектов по кластерам. Выбираются точек. На первом шаге эти точки считаются центрами кластеров. Выбор начальных центроидов может осуществляться путем подбора наблюдений для максимизации начального расстояния, случайным выбором наблюдений или выбором первых наблюдений.
1. Итеративное перераспределение объектов по кластерам. Объекты распределяются по кластерам путем подсчета расстояния от объекта до центров кластеров и выбора наименьшего.
2. Когда все объекты распределены по кластерам, заново считаются их центры.
3. Если , то это означает, что кластерные центры стабилизировались и соответственно распределение закончено. Иначе переходим к шагу 1
Распараллеливание -means алгоритм
-means алгоритм часто работает на очень больших наборов данных, в порядке сотни миллионов точек и десятки гигабайт данных. Поскольку он работает на таких больших наборов данных, а также из-за некоторых характеристик алгоритма, он является хорошим кандидатом для распараллеливания.
-means параллельный алгоритм кластеризации с MPI. MPI является наиболее распространённым стандартом интерфейса обмена данными в параллельном программировании, существуют его реализации для большого числа компьютерных платформ. Используется при разработке программ для кластеров и суперкомпьютеров. Основным средством коммуникации между процессами в MPI является передача сообщении друг другу. В стандарте MPI описан интерфейс передачи сообщении, который должен поддерживаться как на платформе, так и в приложениях пользователя.
MPI является стандартным параллельным программированием на основе передачи сообщении, функция заключается в обмене информацией. MPI программы содержат "mpi.h" заголовок файла, а затем завершения инициализации программы MPI_Init (), после этого устанавливается структура топологии и новый коммуникатор затем, вызывается функция и приложения, которые будут использоваться для каждого процесса, в конце используется MPI_Finalize (), чтобы завершить работу каждого процесса.
Параллельный программный дизайн процесс обмен сообщениями показано на рис. 1.
рис. 1. Процесс обмен сообщениями
Я собираюсь реализовать параллельный -means алгоритм, основанный на MPI, называется means. Прежде чем представить means алгоритм, сначала хочу кратко описать means (Sequential -means) алгоритм, потому что means состоит из means и MPI.
Алгоритм means.
В means алгоритме функция определены как . means стремится минимизировать целевую функцию, т.е. функцию квадрата ошибки. В , относится к расстоянию индексом объектов данных из соответствующих центров тяжести кластеров, указывает на точку данных и определяет кластер тяжести. - расстояние между мерой и . В , относится к среднему точек данных, которые принадлежат к группе , и указывает число объектов, принадлежащих кластеру.
В нашем алгоритме means, число кластеров является параметром который задано пользователем. Во-первых, читает объекты из входного файла. Первоначально центроиды выбираются случайным образом, определяется как . Во-вторых, алгоритм means итеративно присваивает каждому объекту в соответствующий кластер на минимальное расстояние. Когда все объекты назначаются, обновляются центроиды. Процесс будет повторяться до указанного пользователем порогового значения.
Алгоритм means:
Input: число кластеров, число объектов данных
Output: центроиды
1: Чтение объектов из файла;
2: Случайно выбрать точек в качестве начальных центроидов, обозначается как ;
3: Вычислить в формуле , обозначим через ;
4: Назначение каждого объекта до ближайшего кластера;
5: Вычислить новый центр тяжести каждого кластера в формуле
;
6: Пересчитать в формуле
;
7: Повторять шаги 3-6, пока - <порог (- <threshold);
8: Вывод результатов кластеризации: центроидов;
Алгоритм means
На первом этапе, читает объекты из входного файла, и разделяет данные объекты равномерно между процессами, случайным образом выбирает точки в качестве начального центроида кластеров, а затем итеративно присваивает каждому объекту в соответствующий кластер с минимальным расстоянием. Этот процесс будет повторяться до указанного пользователем порогового значения.
В нашем алгоритме means, параллелизм реализуется на параллелизм данных. Параллельная обработка в means согласуется из means. Данные объекты равномерно распределяются во всех процессах и кластерные центроиды реплицируются. Глобальные операции для всех кластерных центроидов выполняется в конце каждой итерации с целью создания новых центров тяжести кластеров. И, наконец, вывод результатов кластеризации: центроиды, I / O времени и времени кластеризации.
Алгоритм means:
Input: число кластеров, число объектов данных
Output: центроиды
1: MPI_Init / / начало процедуры;
2: Чтение объектов из файла;
3: Раздел объектов данных равномерно между всех процессах, и предположим, что каждый процесс имеет объектам данных;
4: Для каждого процесса, выполнить 5-11 шаги;
5: Случайно выбрать точек в качестве начальных центроидов кластера, обозначаемая как ;
6: Рассчитать в формуле , обозначается как ;
7: Назначение каждого объекта до ближайшего кластера;
8: Вычислить новый центр тяжести для каждого кластеру в
;
9: Пересчитать в ;
10: Повторит шаги 6-9, пока - <порог (- <threshold);
11: Создание кластера идентификатор для каждого объекта данных;
12: Создание новых центров тяжести кластеров в зависимости от результатов кластеризации всех процессов в конце каждой итерации;
13: Создание окончательной набор тяжести по функциям слияния и выводить кластеризации. Результат: центроидов;
14: MPI_Finalize / / завершения процедуры;
Слияние функций (Merge Function)
Процессы которые means создает новые наборы данные из исходного набора данных. Так как каждый набор данных использует -means алгоритм для генерации центроиды, мы можем получить тяжести наборы из в . Таким образом, наша цель заключается в объединении тяжести множества в окончательный набор тяжести.
Input: тяжести наборы из в ( центроиды)
Output: центр тяжести ( центроиды)
1: Инициализация тяжести набора как пустые;
2: Если центр тяжести множества пусто, выхода и окончательное тяжести множества , в противном случае, перейти к шагу 3;
3: Найти вектор центроиды с минимальным внутренним расстоянием, которое определяется как в (3), а затем удалить из , кроме того, добавить в . Перейти к шагу 2;
4: Вывод центроидов;
Функция слияния(Merge Function) целью является найти вектор центроидов с минимальным внутренним расстоянием. Кроме того, евклидовое расстояние используется для расчета внутренней расстоянии, обозначается как Distance. В , происходит от тяжести множества и центра тяжести.
Во первых, инициализирует конечные центр тяжести множества как пустые, то есть для записи результатов центроидов , если пусто, то алгоритм выхода и окончательное тяжести множества , в противном случае, находит вектор центроиды с минимальным внутренним расстоянием , а затем удаляет от , кроме того, добавляет в , в конце выходит центр тяжести .
Очевидно, что расчет каждой внутренней расстояния не зависит. Таким образом, все расчеты могут быть выполнены параллельно. Функция слияния(Merge Function) сливается центроидов в новом центроиды , которые являются окончательным центроидом.
-means кластеризации в MapReduce
MapReduce является моделью программирования и связанного реализации для обработки и генерации больших наборов данных. Типичный MapReduce вычислительных процессов многие терабайты данных на тысячи машин. MapReduce обычно разбивает входной набор данных на независимые части. Количество частей зависит от размеров набора данных и количество доступных узлов. Пользователи указывают карта функции, которая обрабатывает (ключ, значение) пара для создания набора промежуточных (ключ, значение), а также снижение функции, которая объединяет все промежуточные значения, связанные с той же промежуточной ключ. MapReduce лучше всего подходит для обработки больших наборов данных и поэтому идеально подходит для кластеризации -means алгоритмов.
Алгоритм работает итеративно в несколько этапов, в следующем образом:
1. На первом этапе, Mappers читает доля входных данных и сжимает исходный набор данных в меньший набор данных, так называемой вспомогательный кластер. Эти вспомогательные кластеры помогают представить исходные данные в случае ограниченного размера оперативной памяти.
2. Каждый Mapper создает начальной кластеров из этих вспомогательных кластеров, которые затем направляются в Reducer.
3.Reduce объединяет кластеры от каждого Mapper и пересчитывает центроидов всех кластеров.
4. Эти центры тяжести в настоящее время таким образом возвращаются к первоначальному Mapper по трансляции операций.
5. Теперь каждый Mapper могут использовать новые центроиды и переназначить его вспомогательных кластеров этих центров тяжести. Mapper направляет свои локальные кластеры обратно в Reducer.
6. Reducer снова объединяет кластеры и пересчитывает центроиды.
7. Эта процедура повторяется до тех пор пока Reducer решает остановить повторную данных Mapper . Это обычно происходит, когда алгоритм сходится.
Из моих результатов, -means является очень параллелизуемыми алгоритмом, который может быть эффективно реализован на MapReduce, чтобы дать значительное ускорение по сравнению с реализации непараллельного алгоритма.
Литература
1. Дж. Ту, Р. Гонсалес Принципы распознавания образов. - стр.110-112.Москва, 1978г.
2. Кашкин В.Б., Сухинин А.И. Дистанционное зондирование Земли из космоса. Цифровая обработка изображений: Учебное пособие. - М.: Логос, 264 с 2001г.
3. В.В. Сергеев Анализ и обработка изображений, получаемых при наблюдениях земли из космоса// Стенограмма научного сообщения на совместном семинаре ИСОИ РАН и Института компьютерных исследований СГАУ 18 апреля 2006 года.
4. К. В. Воронцов Лекции по алгоритмам кластеризации и многомерного шкалирования 21 декабря 2007 года.
5. Р. Миллер, Л. Боксер Последовательные и параллельные алгоритмы. Издательство: Бином. Лаборатория знаний 408стр, 2006г.
6. Khaled Alsabti, Sanjay Ranka and Vineet Singh. An efficient k-means clustering algorithm. In HPDM, 1998.
7. Antonio J. Plaza Parallel techniques for information extraction from hyperspectral imagery using heterogeneous networks of workstations / 2007.
8. Grace Nila Ramamoorthy. K-means Clustering Using Hadoop MapReduce// Final Project Report, University College Dublin, September 16. 2011.
9. R.C.Dubes and A.K. Jain. Algorithms for Clustering Data. Prentice Hall, 1988
10. M. Armbrust, I. Stoica, M. Zaharia, A. Fox, R. Griffith, A. Joseph, R. Katz, A. Konwinsli, G. Lee, D. Patterson, A. Rabkin, “A view of cloud computing,” Communications of
the ACM, vol. 53, no. 4, pp. 50-58, April 2010.
11. W. Zhao, H. Ma, Q. He, “Parallel K-Means Clustering Based on MapReduce,” Cloud Computing, vol. 5931, pp. 674-679, 2009.
12. S. Kantabutra, A. Couch,“Parallel K-means Clustering Algorithm on NOWs,” Technical Journal, vol. 1, no. 6, 2000.
13. D. Arthur, S. Vassilvitskii, “k-means++: the advantages of careful seeding,” Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, pp. 1027-1035, 2007.
14. R. Amorim, B. Mirkin, “Minkowski metric, feature weighting and anomalous cluster initializing in K-Means clustering,” Pattern Recognition, vol. 45, no. 3, pp. 1061-1075, 2012.
15. A. Jain, “Data clustering: 50 years beyond K-means,” Pattern Recognition Letters, vol. 31, no. 8, pp. 651-666, June 2010.
Размещено на Allbest.ru
...Подобные документы
Мониторинг объектов населенных пунктов: сущность и задачи, информационное обеспечение. Современные системы дистанционного зондирования: авиационные, космические, наземные. Применение аэро- и космических съемок при мониторинге объектов населенного пункта.
дипломная работа [5,1 M], добавлен 15.02.2017Особенности дешифрования данных дистанционного зондирования для целей структурно-геоморфологического анализа. Генетические типы зон нефтегазонакопления и их дешифрирование. Схема структурно-геоморфологического дешифрирования Иловлинского месторождения.
реферат [19,0 K], добавлен 24.04.2012Преимущества методов дистанционного зондирования Земли из космоса. Виды съемок, методы обработки снимков. Виды эрозионных процессов и их проявление на космических изображениях. Мониторинг процессов фильтрации и подтопления от промышленных отстойников.
курсовая работа [8,4 M], добавлен 07.05.2015Проведение исследований гидрографических объектов. Требования к аппаратуре дистанционного зондирования Земли при проведении геоэкологических исследований нефтегазового комплекса. Характеристика съемочной аппаратуры, установленной на космических аппаратах.
курсовая работа [760,1 K], добавлен 15.03.2016Прикладные задачи, решаемые с помощью методов и средств дистанционного зондирования. Расчет параметров съемки в целях землеустройства и земельного кадастра. Основные требования к точности результатов дешифрирования при создании базовых карт земель.
контрольная работа [433,7 K], добавлен 21.08.2015Дешифровочные признаки основных геологических и геоморфологических элементов. Прямые дешифровочные признаки. Контрастно-аналоговый метод по сопоставлению с эталонными снимками и показателями и сопоставлению и сравнению объектов в пределах одного снимка.
реферат [279,9 K], добавлен 23.12.2013Методы изучения океанов и морей из космоса. Необходимость дистанционного зондирования: спутники и датчики. Характеристики океана, исследуемые из космоса: температура и соленость; морские течения; рельеф дна; биопродуктивность. Архивы спутниковых данных.
курсовая работа [2,6 M], добавлен 06.06.2014Особенности применения космического мониторинга для оценки стихийных природных явлений. Получение материалов дистанционного зондирования. Мониторинг для оценки паводковой ситуации, землетрясений, пожаров, изменений площади зеркала воды Аральского моря.
курсовая работа [5,0 M], добавлен 22.01.2014Перспективы и пути развития горно-металлургического комплекса Республики Казахстан: переоценка месторождений бедных руд, поиск глубоко залегающих ископаемых в рудоносных структурах с использованием космических технологий, зондирования и сейсморазведки.
презентация [7,1 M], добавлен 04.03.2012Дешифрирование мелкомасштабных изображений представляет собой научную дисциплину, которая совершенствуется из года в год. Космическая съемка для решения народнохозяйственных задач становится все более планомерной. Программы космических фотосъемок Земли.
реферат [16,6 K], добавлен 20.04.2008Аэросъемка и космическая съемка - получение изображений земной поверхности с летательных аппаратов. Схема получения первичной информации. Влияние атмосферы на электромагнитное излучение при съемках. Оптические свойства объектов земной поверхности.
презентация [1,3 M], добавлен 19.02.2011Характеристика универсальной аппаратуры серии ЭРА и аппаратуры аудиомагнитотеллурического зондирования АКФ для проведения электроразведочных работ. Электроразведка методом переходных процессов. Геофизические исследования методами ГМТЗ, МТЗ и АМТЗ.
реферат [303,6 K], добавлен 29.05.2012Использование метода линейной фильтрации для расчета кривых электрических зондирований. Таблицы с параметрами линейных фильтров. Листинг программы: расчет кажущегося сопротивления от разноса, считывание параметров мощности слоев, присвоение значений.
курсовая работа [417,1 K], добавлен 11.12.2012Принципы изопараметричности зондов ВИКИЗ. Основные геолого-геофизические задачи, решаемые методом. Общие ограничения электромагнитных методов каротажа. Пространственная компоновка элементов зондового устройства. Структурная схема скважинного прибора.
курсовая работа [2,4 M], добавлен 29.01.2014Электромагнитные волны в земле, их отражение и дифракция. Глубинность, разрешающая способность, детальность георадарных исследований. Методика проведения георадарных работ. Форма зондирующего импульса. Результаты георадиолокационных работ поперек р. Угра.
реферат [1,6 M], добавлен 05.05.2012Дешифрирование - анализ материалов аэро- и космических съемок с целью извлечения из них информации о поверхности Земли. Получение информации путем непосредственных наблюдений (контактный способ), недостатки способа. Классификация дешифрирования.
презентация [2,2 M], добавлен 19.02.2011Причины использования метода дешифрирования снимков. Влияние ледников на природу планеты. Оценка снежно-ледовых ресурсов Земли из космоса. Значение космических снимков. Этапы программы "космической помощи". Необходимость применения рекреационных карт.
реферат [20,2 K], добавлен 17.11.2011Внутреннее строение Земли. Понятие мантии как геосферы Земли, которая окружает ядро. Химический состав Земли. Слой пониженной вязкости в верхней мантии Земли (астеносфера), его роль и значение. Магнитное поле Земли. Особенности атмосферы и гидросферы.
презентация [11,8 M], добавлен 21.11.2016Задачи и содержание дешифрирования снимков застроенных территорий. Методы дешифрирования материалов аэро- и космических съемок. Классификация демаскирующих признаков. Процесс автоматизированного распознавания образов на основе нейросетевых методов.
дипломная работа [2,8 M], добавлен 15.02.2017Группы горных пород литосферы по структуре слагающего вещества. Алгоритмы второго порядка определения для обломочных, глинистых, кристаллических и аморфных пород. История разработки классификаций горных пород. Пример общей генетической классификации.
монография [315,4 K], добавлен 14.04.2010