Методы и модели интеллектуального анализа сигналов геофизических полей
Разработка методологии анализа сигналов с использованием технологии Data Mining, алгоритмов сегментации сигналов, классификации их элементов и построения структурной модели. Создание программного обеспечения, реализующего предложенные алгоритмы.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | русский |
Дата добавления | 31.07.2018 |
Размер файла | 227,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
Методы и модели интеллектуального анализа сигналов геофизических полей
Специальность: 05.13.18. - Математическое моделирование,
численные методы и комплексы программ
кандидата технических наук
Тристанов Александр Борисович
Санкт-Петербург - 2006
Работа выполнена в Камчатском государственном университете имени Витуса Беринга (“КамГУ имени Витуса Беринга”).
Научный руководитель - доктор технических наук, профессор Геппенер В.В.
Научный консультант - кандидат физико-математических наук Фирстов П.П.
Официальные оппоненты:
доктор технических наук, профессор Куприянов М.С.
кандидат технических наук, с.н.с. Егоров В.В.
Ведущая организация -- Институт космофизических исследований и распространения радиоволн ДВО РАН, п. Паратунка, Камчатская область
Защита состоится "___" __________ 2006 г. в часов на заседании диссертационного совета Д 212.238.01 Санкт-Петербургского государственного электротехнического университета "ЛЭТИ" имени В.И. Ульянова (Ленина) по адресу: 197376, Санкт-Петербург, ул. Проф. Попова, 5.
С диссертацией можно ознакомиться в библиотеке университета.
Автореферат разослан “____” ___________ 2006 г.
Ученый секретарь
диссертационного совета Пантелеев М.Г.
сегментация сигнал программный mining
Общая характеристика работы
Актуальность. Большое значение в геофизических и геохимических исследованиях имеют методы и средства сбора, обработки и анализа данных наблюдений. К настоящему времени геофизика почти полностью перешла к применению современных цифровых систем сбора, передачи, хранения и обработки данных. Развитие методологической, теоретической и инструментальной базы геофизики позволяет получать принципиально новые знания о геодинамических процессах и строении Земли.
Классическим подходом к анализу сигналов в геофизике является экспертный метод, который обладает рядом недостатков, связанных с субъективностью мнения эксперта. Возрастающий объем данных, получаемых в настоящее время в ходе исследований геодинамических процессов, требует принципиально нового подхода к их обработке. Обнаружение и выделение в геофизических сигналах особенностей, повторяющихся явлений, скрытых аномалий и закономерностей, обусловленных процессами, происходящими в недрах Земли, требуют определенной формализации, которая возможна при использовании современных методов математического моделирования. Огромный поток данных делает необходимым разработку автоматических систем, формирующих описание исследуемых сигналов и выделение в них особенностей, связанных с изменениями в структуре геологической среды или в таких геодинамических процессах как землетрясения и извержения вулканов. Целью таких систем является повышение производительности обработки регистрируемых данных, возможность формализовать и повысить эффективность выделения различного вида особенностей сигнала, а также облегчить интерпретацию получаемых данных.
Построение модели геологической среды является сложной и, зачастую, не решаемой задачей, вследствие многофакторности объекта моделирования. Получаемые модели не могут применяться для достоверного прогноза поведения моделируемой системы. В связи с этим, в настоящее время в геофизике делается упор на разработку методов анализа результатов наблюдения за поведением реальной среды на основании записей сигналов геофизических полей с последующим построением расчетных и эмпирических зависимостей, которые отражают состояние геологической среды. Так, известно, изменения в структуре сигналов геофизических полей являются следствием изменения напряженно-деформированного состояния среды. Последнее является основой в задачах поиска предвестниковых аномалий землетрясений и прочих природных катастроф.
Основная задача анализа сигналов заключается в представлении сигнала в такой форме, на основании которой можно получить новую информацию о процессах, протекающих в исследуемой системе. Перспективным представляется подход структурного моделирования, при котором модель сигнала формируется из компонент со свойствами, задаваемыми на основе представлений о физике процесса, причем формулировка данных свойств, требует применения математических методов, позволяющих описать сигнал, поведение которого меняется с течением времени. Наиболее эффективно данную задачу позволяют решать методы, основанные на теории вейвлет-преобразования, для которой в настоящее время хорошо развита математическая база, и которая нашла широкое применение в обработке сигналов различной природы.
В настоящее время актуальным является применение интеллектуальных методов (технология Data Mining) в обработке данных в таких областях как медицина, социология, экономика и маркетинговые исследования. Данное направление является перспективным и для обработки результатов геофизических наблюдений. Применение методов Data Mining к обработке сигнальной информации в геофизике требует адаптации данной технологии и включения в нее современных методов цифровой обработки сигналов.
Обобщая сказанное выше, можно сделать вывод, что актуальность предлагаемого подхода при анализе геофизических данных определяется возможностью решения таких задач, как поиск предвестников сильных землетрясений, выделение отдельных этапов в динамике вулканических извержений, обнаружение волновых возмущений в атмосфере при вулканических взрывах и т.д. Актуальность предлагаемой работы определяется важностью прогноза природных явлений по наблюдаемым изменениям геофизических полей в рамках программы по обеспечению безопасности населения и народно-хозяйственных объектов при возникновении природных катастроф.
Общее содержание диссертационной работы соответствует научному направлению "Распознавание образов и обработка изображений" Государственной научно-технической программы "Перспективные информационные технологии". Исследование выполнялось в рамках научно-исследовательской работы «Современная геодинамика и новейшая тектоника зоны сочленения Курило-Камчатской и Алеутской островных дуг», проводимой в Институте вулканологии и сейсмологии Дальневосточного отделения РАН. Исследование выполнено при финансовой поддержке гранта РФФИ 02-05-64467-а (2004 г.) и грантов Президиума Дальневосточного отделения РАН 05-III-Г-08-140 (2005 г.), 06-III-А-08-335 (2006 г.).
Целью диссертационного исследования является разработка методики интеллектуального анализа сигналов геофизических полей с использованием технологии Data Mining с целью выявления их аномального поведения.
В ходе достижения цели решались следующие задачи:
1. Качественный анализ сигналов и формулировка требований к разрабатываемой системе автоматической обработки.
2. Разработка методологии анализа сигналов с использованием технологии Data Mining на основе сформулированных требований.
3. Разработка формы представления сигнала - его структурной модели.
4. Разработка алгоритмов сегментации сигналов, классификации их элементов и построения структурной модели.
5. Разработка программного обеспечения, реализующего предложенные алгоритмы;
6. Проведение экспериментов по оценке эффективности разработанной системы с использованием модельных и реальных геофизических сигналов.
Методы исследования. В диссертационной работе использовались аппарат теории цифровой обработки сигналов, теории искусственного интеллекта, теории распознавания образов, математического моделирования, методы дискретной и вычислительной математики, основы функционального анализа.
Научную новизну работы составляют следующие положения:
1. Использование технологии Data Mining для анализа геофизической информации и построения моделей сигналов.
2. Структурная модель сигналов геофизических полей, описывающая изменение свойств сигнала как последовательности классов сегментов, позволяющая эффективно интерпретировать результаты экспериментов.
3. Алгоритм сегментации и классификации сигналов на основе вейвлет-пакетного разложения, отличающийся адаптивностью к свойствам сигнала.
Научные положения, выносимые на защиту:
1. Методика анализа сигналов геофизических полей с использованием технологии Data Mining.
2. Способ описания структуры и классификации сигналов на основе лучшего вейвлет-пакетного разложения.
3. Структурная модель сигнала геофизических полей и методы ее исследования.
4. Алгоритм сегментации сигналов на основе вейвлет-пакетов.
Практическую значимость работы составляют:
1. Разработанные алгоритмы для сегментации сигналов геофизических полей.
2. Разработанный комплекс прикладных программ, автоматизирующий построение и исследование структурной модели сигналов геофизических полей.
3. Предложенные алгоритмы и методы могут служить основой для создания новых систем анализа нестационарных сигналов в различных прикладных областях.
Внедрение результатов работы. Результаты диссертационного исследования внедрены в лаборатории комплексных исследований предвестников землетрясений и извержений вулканов Института вулканологии и сейсмологии ДВО РАН и в учебный процесс кафедры прикладной математики Камчатского государственного университета им. В. Беринга, что подтверждено актами о внедрении.
Апробация работы. Основные положения диссертационного исследования докладывались на следующих научных мероприятиях:
- Всероссийские научные конференции «Проектирование инженерных и научных приложений в среде MATLAB», Москва, 2002, 2004 г.г.
- Ежегодные конференции, посвященные Дню вулканолога, Петропавловск-Камчатский, 2004, 2005 г.г.
- Международные конференции по мягким вычислениям и измерениям (SCM'2004, SCM'2006), Санкт-Петербург, 2004, 2006 г.г.
- 7-я международная конференция «Распознаванию образов и анализ изображений» (РОАИ-7), Санкт-Петербург, 2004 г.
- Конференции профессорско-преподавательского состава СПбГЭТУ «ЛЭТИ», Санкт-Петербург, 2005, 2006 г.г.
- Четвертый всероссийский симпозиум «Сейсмоакустика переходных зон», Владивосток, 2005 г.
- Ежегодная региональная молодёжная конференция «Исследования в области наук о Земле (география, геология, геофизика, геоэкология, вулканология), Петропавловск-Камчатский, 2005 г.
- Конференция «Комплексные сейсмологические и геофизические исследования Камчатки» 17-18 января 2006 г., Петропавловск-Камчатский, 2006г.
Публикации. По теме диссертации опубликовано 11 научных работ, из них 1 статья, 10 докладов в материалах и трудах международных и всероссийских конференций.
Структура и объем диссертации. Диссертация состоит из введения, шести глав, заключения, списка литературы, включающего 78 наименований, и двух приложений. Основная часть работы изложена на 111 страницах машинописного текста. Работа содержит 61 рисунок и 5 таблиц.
Основное содержание работы
Во введении обоснована актуальность и научная новизна, изложены цели, задачи и методы исследования, практическая значимость диссертационного исследования.
Первая глава посвящена рассмотрению технологии Data Mining в геофизических исследованиях и носит обзорный характер. Рассмотрены методы геофизических исследований, проведен качественный анализ сигналов геофизических полей. Сформулированы требования к системам обработки геофизических сигналов.
Data Mining является одним из бурно развивающихся направлений обработки данных, которое лежит на пересечении таких областей знаний как теория баз данных, математическая статистика и теория искусственного интеллекта.
Data Mining (добыча знаний) - это процесс исследования и обнаружения (алгоритмами, средствами искусственного интеллекта), в сырых данных, скрытых, ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации человеком знаний.
Выделяют следующие классы задач Data Mining: регрессия, классификация, поиск ассоциативных правил, кластеризация.
Важным источником знаний о внутренней структуре Земли и протекающих процессах в ее глубинах являются геофизические поля. В связи с этим современная наука уделяет особое внимание развитию новых теоретических и аппаратурных методов изучения процессов, определяющих динамические явления, связанные с трансформацией энергии в геофизической среде, и формирующих тонкую структуру естественных геофизических полей, которые отражают наблюдаемые внутренние перестройки и изменения в окружающей среде.
Одной из проблем исследования сигналов геофизических полей с целью выявления аномалий, предшествующих повышению сейсмической активности, является формирование компактного признакового описания сигналов. Широкое применение находят методы построения такого описания экспертом по визуальному анализу временной реализации сигнала. Данный метод обладает рядом преимуществ, но и рядом недостатков. Применяемый в процессе анализа опыт эксперта позволяет классифицировать аномалии по видам (интересные/ неинтересные, помехи/особенности и т.д.). Недостатки данного подхода являются следствием именно эмпиричности и субъективности мнения эксперта, а также невозможности отследить скрытые особенности (например, аномалии в частотной области). Большинство систем обработки и анализа данных, применяемых в геофизике, действуют на основании предварительно сформулированной гипотезе о виде аномалии, которую требуется обнаружить. Зачастую, особенно на начальных этапах наблюдений, невозможно сказать, как будет выглядеть аномалия в сигнале, предшествующая сейсмической активности. В связи с этим применение таких систем является малоэффективным.
Анализируя имеющийся опыт обработки сигналов геофизических полей, можно выделить ряд характеристических особенностей сигналов: значительный объем, делающий невозможным ручную обработку данных; вариабельность сигналов, как во временной, так и в частотной области; сильная зашумленность, в том числе и техногенными помехами; влияние на сигналы длиннопериодных воздействий (сезонный ход, приливные воздействия); временная локализованность аномалий.
Применяемые математические методы должны учитывать свойства сигналов, т.е. методы должны быть пригодны для анализа нестационарных сигналов со значительной частотно-временной вариабельностью. В настоящее время при обработке таких сигналов хорошо зарекомендовал себя метод вейвлет-анализа. Следует отметить лучшее из всех существующих методов частотно-временное разрешение вейвлетов с точки зрения адаптивности, как к мелкомасштабным особенностям, так и к длиннопериодным.
В главе показано, что одной из наиболее перспективных основ для построения систем обработки геофизических сигналов является технология Data Mining, включающая в себя разнообразные методы извлечения знаний. Но следует отметить, что изначально эти методы ориентировались на извлечение знаний в бизнес-приложениях и в связи с этим требуют адаптации для применения их к сигнальной информации.
Во второй главе предлагается подход к обработке геофизических сигналов на основе интеллектуальных технологий. Разработана структурная модель сигнала. Показана общая структура систем Data Mining. Представлен обзор формальных задач Data Mining. Сформулирована задача сегментации сигнала как обобщение задачи обнаружения особенностей и частный случай задачи регрессии.
Анализ экспериментальных данных, обладающих внутренней структурой, связан с необходимостью выделения и классификации их фрагментов, несущих элементарные единицы информации об исследуемом объекте. Методы, предназначенные для выявления и классификации сравнительно коротких фрагментов сигнала, несущих информацию об исследуемом объекте, принято называть структурными.
Используя такой подход к сигналам, предложена модель сигнала вида (S,R), где S - множество элементарных блоков сигнала, R - множество допустимых связей (закономерностей в следовании блоков) между элементарными блоками.
Идентификация данной модели предполагает выполнение двух операций:
1. Составление словаря элементарных блоков. Данная операция выполняется методами сегментации и классификации.
2. Выявление допустимых связей. Эта операция выполняется методами анализа последовательностей, в частности, путем построения ассоциативных правил. Ассоциативные правила позволяют выделять статистически часто повторяющиеся последовательности, с целью выявления фоновых процессов. С другой стороны могут выделяться и связи допустимые в данном сигнале, но являющиеся редкими, которые определяют артефакты сигнала или особенности. К особенностям могут относиться как аномальные (редкие) связи, так и редкие классы блоков.
Предлагаемый подход к анализу геофизических сигналов включает в себя 3 этапа.
Этап 1. Сбор и обработка сырых данных. Задача сбора данных решается на аппаратном уровне и включает в себя регистрацию сигналов и подготовку их цифровых записей. Далее на данном этапе происходит подготовка сырых данных к применению методов Data Mining.
Этап 2. Применение методов Data Mining. На данном этапе рассматриваются задачи, решение которых невозможно или представляет сложность при применении классических методов. К этим задачам относятся: выделение скрытых особенностей сигнала, выделение фоновых процессов, классификация особенностей, выявление скрытых закономерностей в последовательности условно стационарных участках сигнала. Явное решение данных задач в геофизике затруднительно вследствие неопределенности в структуре наблюдаемых данных.
Решение перечисленных задач предлагается проводить по следующей схеме:
1) использование методов выделения особенностей и формирование признакового описания сегментов.
Этот пункт заключается в применении методов сегментации сигналов и является одним из вариантов задачи регрессии. Сегментацию можно рассматривать как процесс преобразования сигнала к дискретной последовательности сегментов с известными свойствами.
2) классификация сегментов;
После получения подготовленного материала необходимо его систематизировать. В зависимости от выбранного алгоритма сегментации выделенные участки сигнала (сегменты) могут быть разделены по классам автоматически, либо требовать применения методов автоматической кластеризации.
В результате мы имеем последовательность сегментов, каждому из которых поставлена в соответствие строка (код), определяющая класс сегмента. Данный код включает - номер (название или другой идентификатор) класса и длительность сегмента.
3) анализ последовательностей;
На данном этапе происходит поиск закономерностей в полученной последовательности, либо анализ структуры сегментов.
Этап 3. Интерпретация и визуализация.
Данный этап связан с визуализацией результатов и предполагает использование методов когнитивной графики и прочих средств визуализации, упрощающих пользователю понимание полученных результатов.
Формально, решая задачу сегментации, требуется построить детектор, выбирающий одну из двух гипотез и :
: исследуемый сигнал соответствует модели ;
: существует момент времени , такой, что исследуемый сигнал соответствует модели при и модели при .
Здесь - граница сегмента.
Свойства, изменение которых могут быть обнаружены, определяются гипотезой о виде моделей и . Эти модели, в свою очередь, определяют выбор критерия сегментации. Модели и представляют собой экземпляры параметрической модели M, зависящей от набора свойств (параметров) . Параметры модели идентифицируются или задаются заранее и служат отправной точкой процедуры сегментации. Параметры модели в задаче обработки геофизических данных считаются априори неизвестными.
В третьей главе предложен метод сегментации основанный на конструкции вейвлет-пакетов. Кратко рассмотрена структура кратномасштабного анализа, как частого случая вейвлет-пакетного разложения.
Конструкция кратномасштабного анализа позволяет разбить частотную область на диапазоны, но разбиение происходит лишь в строну низкочастотного диапазона. При построении модели элементарного блока больший интерес представляет структура всего частотного диапазона. Вейвлет-пакеты обладают лучшей частотной локализацией по сравнению с другими методами. В связи с этим, для построения модели будут использоваться свойства вейвлет-пакетного разложения.
Для реализации процесса идентификации структурной модели сигнала, алгоритм должен выделить момент смены модели элементарного блока. В главе предлагается рассматривать модель элементарного блока, основанную на вейвлет-пакетном представлении последовательности. Алгоритм сегментации заключается в выполнении приведенных ниже шагов.
Будем исследовать сигнал S. Разобьем S на окна с перекрытием. Размеры окон будут определять разрешение алгоритма сегментации. Все действия алгоритма будут проводиться последовательно над каждым окном. Сравнение характеристик, полученных в каждом окне будут производится для соседних пар окон.
Первый этап заключается в анализе свойств сигнала в j-м окне. Пусть участок сигнала, соответствующий j-му окну. Выполним вейвлет-пакетное разложение , с заранее выбранным базисом до уровня N. В результате имеем граф - полное бинарное дерево высотой N, число листьев у которого равно 2N. Каждой вершине этого графа соответствуют вейвлет-коэффициенты. Обозначим этот граф разложения Gj.
Вершины Gj можно частотно-упорядочить, т.е. все левые потомки i-й вершины соответствуют низшей частоте, правые - высшей. Теперь имеем разбиение частотной оси, диапазон каждого из элементов разбиения определяется в соответствии с формулой
Далее получим лучшее дерево разложения (основанном на энтропии) - . Дерево , в общем случае, является неполным. Графу (листьям дерева) соответствует разбиение частотной области на интервалы, но в отличии от Gj не неравные - . зависит от уровня на котором расположен k-й лист. Аналогичные действия производим над j+1 окном. Имеем наилучшее дерево разложения для j+1 окна - .
Деревья и , а точнее, порождаемые ими разбиения частотной оси, отражают структуру спектра сигнала заключенного в соответствующем окне. Т.е. если два разбиения структурно совпадают, то они имеют диапазоны частот, обладающие одинаковым свойством.
Таким образом, два окна j и j+1 относятся к одному сегменту сигнала с позиции описанного выше критерия равенства структур спектров, если их лучшие деревья вейвлет-пакетного разложения топологически совпадают.
Разработанный алгоритм, по сути, позволяет описать сигнал в частотно-временной области, используя свойства вейвлет-преобразования. Выбирая лучший базис по заданным критериям, можно получить частотное разбиение сигнала, описывающее его спектральную структуру.
С позиции интеллектуального подхода данный алгоритм решает задачу классификации (регрессии на конечном множестве классов). Классификация сегментов происходит по разбиению частотной области, порожденному лучшим вейвлет-пакетным разложением. Необходимость классификации частей сигнала по признаку структуры спектра естественно возникает при анализе геофизических сигналов.
Четвертая глава посвящена возможным методам анализа полученной структурной модели. Рассмотрено понятие ассоциативного правила (АП). Рассмотрены формы представления АП. Предложен метод применения теории АП к анализу сигналов. Предложена модификация алгоритмов построения АП для последовательности сегментов. Рассмотрены формы представления структурной модели.
В результате анализа последовательности сегментов получаются логические выводы о закономерностях изменения свойств, определяемых алгоритмом сегментации.
Можно выделить два вида анализа: основанный на частном анализе последовательности и основанный на статистическом анализе. В зависимости от длины сигнала, или настроек алгоритма полученная последовательность может быть короткая, либо длинная. Второй вид, очевидно, ориентирован на анализ достаточно длинных последовательностей, первый может применяться в обоих случаях. Частный анализ основан на исследовании свойств каждого отдельного сегмента. Для предложенного алгоритма сегментации (гл.3) анализируется динамика частотной структуры сигнала. Статистический анализ в первую очередь рассматривает последовательность сегментов как реализацию случайной величины. Только после обработки происходит интерпретация результата с точки зрения модели, заложенной в алгоритме сегментации.
Поиск АП является важной задачей интеллектуального анализа данных. Анализ последовательностей является частным случаем данной задачи.
АП представляет собой логический вывод вида «если А, то B» или «», где А это набор из наличия которого следует наличие набора B.
К основным характеристикам правил относят:
- поддержку набора
,
- поддержка правил
- достоверность правил
Ограничивая значение поддержки набора можно составить множество частных наборов, которые в дальнейшем использовать для построения правил. Достоверность показывает вероятность того, что из наличия в транзакции набора А следует наличие в ней набора B.
Для применения теории АП при обработке сигналов необходимо определить для данной задачи понятие транзакции. На последовательности сегментов введем отношение R следующим образом: два сегмента находятся в отношении R, если они непосредственно следуют друг за другом. Введенное отношение будет отношением доминирования, т.к. если не существует такого , что .
Транзакцией tn будем назвать подпоследовательность длинной n сегментов находящихся в отношении R друг с другом. В общем случае транзакция может быть построена с использованием отношения строго порядка, но нас будут интересовать зависимости между близкими сегментами.
Полученные АП описывают подпоследовательности, часто встречающиеся в последовательности сегментов. Считая, что сигнал представляет собой совокупность двух форм поведения: фона и артефактов, то АП, поддерживаемые большим числом транзакций, определяют поведение фона, в свою очередь редкие правила позволяют выявить аномальные зависимости в сигнале.
В главе подробно рассмотрен алгоритм apriori построения ассоциативных правил, а также приведено описание модификаций данного алгоритма. Далее приведен обзор подхода к описанию структурной модели сигнала с использованием теории Марковских цепей, на котором основан статистический анализ модели. В заключении рассмотрены формы представления структурной модели сигнала на основе теории отношений и общей алгебры.
Пятая глава посвящена разработке программного комплекса предназначенного для анализа и моделирования сигналов. Описана система генерации сигналов на основе структурной модели с использованием вейвлет-пакетного разложения и системы анализа сигналов. Изложена структура системы анализа (идентификации структурной модели) сигналов.
Комплекс предназначен для исследования сигналов геофизических полей Земли. В основе комплекса лежат алгоритмы, изложенные в настоящей работе. Комплекс разрабатывался с учетом требований, предъявленных в гл.1 к автоматизированным системам обработки и анализа сигналов геофизических полей. Разработанное программное обеспечение реализует все стадии и этапы предлагаемой методики обработки сигналов.
Комплекс включает в себя: 1) подсистему сбора и обработки первичных данных; 2) информационную систему «Регистрация»; 3) подсистему анализа; 4) подсистему моделирования.
Подсистема сбора и обработки первичных данных предназначена для получения данных от внешних источников (систем регистрации и пр.), работы с хранимыми файлами сигналов.
ИС «Регистрация» предназначена для систематизации информации о проектах и экспериментах, проводимых в лаборатории, условиях финансирования, ответственных исполнителях, привлеченном оборудовании, сбора и хранения информации о регистрируемых сигналах и условиях наблюдений, ведения дневника наблюдений, сбор результатов обработки данных наблюдений.
Подсистема анализа предназначена для идентификации и исследования модели сигнала по экспериментальным или модельным данным.
Подсистема моделирования предназначена для генерирования сигналов с заданными свойствами. В основе данной системе лежит обратный алгоритм анализа.
Подсистемы анализа и моделирования реализовывались в среде научных и инженерных расчетов MATLAB 6.5. Информационная система «Регистрация» и подсистема сбора и обработки реализовывались в Delphi 7.0. База данных имеет формат MySQL. Интеграция подсистем в единый программный комплекс достигалась использованием взаимосвязанных информационных структур, с помощью которых происходит передача данных между подсистемами. Также использовались средства автоматизации среды MATLAB, что позволяет рассматривать подсистемы анализа и моделирования как составные элементы информационной системы лаборатории.
Для проверки режимов функционирования и эффективности предложенных алгоритмов была разработана система генерации модельных сигналов, основанная на частном случае структурной модели. Для элементарного блока выбрана вейвлет-пакетная модель. Задача генерации модельного сигнала - есть решение обратной задачи сегментации.
На рис.1 приведена структура построения модели сигнала.
Алгоритм генерации включает в себя следующие этапы:
1. Генерация обобщенной структуры модели. В результате имеем последовательность Seq, определяющую порядок следования сегментов, их длительность и классы. Генерация данной структуры может происходить как случайным образом, так и задаваться априори. Под длительностью понимается число элементарных блоков входящих в сегмент.
2. Генерация коэффициентов вейвлет-пакетного разложения. Для каждого сегмента из последовательности Seq формируется нижний уровень дерева вейвлет-пакетного разложения. Входными параметрами для данного этапа являются: число уровней разложения N, длительность элементарного блока 2M (но не менее 2N).
Рис.1 Блок-схема системы моделирования (WP-1- вейвлет-пакетное восстановления.)
3. Вейвлет-пакетное восстановление. По полученным на втором этапе коэффициентам восстанавливается отсчеты элементарного блока. Данных этап реализован на основе обобщенного алгоритма Малла. Входными параметрами являются: фильтры восстановления (суть вейвлет).
4. Позиционирование элементарных блоков. Данный этап заключается в выполнении операции конкатенации элементарных блоков в сегменты и далее в модельный сигнал в соответствии с порядком их следования в последовательности Seq.
5. Внедрение аномалий. В полученный на четвертом этапе сигнал могут быть внедрены аномалии, длительность которых может быть меньше длительности элементарного блока. Данные аномалии внедряются либо случайным образом, либо управляемо.
По сути, этап генерации элементарного блока заключается в синтезе последовательности, имеющую: заданную длину и частотную структуру, определяемую некоторым критерием. То есть нужно так сгенерировать коэффициенты разложения, чтобы при анализе сигнала имелась фиксированное (заданное) лучшее дерево декомпозиции.
В случае энергетического критерия выбора лучшего дерева задача сводится к распределению коэффициентов по уровням таким образом, чтобы соблюдалось заданное соотношение энергий в каждом из узлов (частотном поддиапазоне). Зная вид лучшего дерева и соотношения энергий, в соответствующие узлы могут быть помещены некоторые коэффициенты, и далее, последовательность отсчетов может быть восстановлена по лучшему дереву.
Технико-экономических эффект внедрения разработанного комплекса заключается в формализации и упрощении обработки и анализа результатов наблюдений за динамикой возмущений геофизических полей. Так, при использовании программного комплекса, упрощается процесс выделения краткосрочных и среднесрочных аномалий в регистрируемых сигналах. Комплекс может применяться для исследования сигналов в различных прикладных областях.
Шестая глава посвящена применению предлагаемой методики к анализу сигналов, полученных с использованием разработанной системы моделирования и реальных геофизических сигналов. Введены критерии качества, описывающие эффективность предложенного алгоритма. Приведено описание статистического материала вычислительного эксперимента. Проведена оценка критериев. На конкретных примерах проиллюстрировано применение предложенной методики при решении реальных геофизических задач, в частности, реконструкции этапов вулканических извержений и анализа структуры сигнала высокочастотного сейсмического шума.
Целью эксперимента по анализу модельных сигналов является проверка корректности и эффективности алгоритмов для построения структурной модели. В качестве экспериментальных данных использовались сигналы сгенерированные разработанной системой моделирования.
Эксперимент состоял из трех частей: 1) проверка корректности работы алгоритма на детерминированных сигналах; 2) исследование «чистых» сигналов; 3) Исследование сигналов с наложенным аддитивным шумом.
Эффективность алгоритмов оценивалась по двум критериям: 1) качество сегментации и 2) качество классификации.
Эффективность сегментации определялась путем оценки вероятности верного распознавания перехода между двумя смежными сегментами. При этом правильность классификации сегментов не рассматривалась. Качество классификации определялась оценкой верной классификации всех сегментов сигнала. При этом из выборки выбрасывались те идентифицированные модели, которые были неправильно сегментированы. В каждом эксперименте генерировалось 1000 сигналов.
В результате вычислительного эксперимента в группе детерминированных сигналов эффективность распознавания, как и ожидалась, была равна 100%, при 0% числе аномалий. Данный факт позволяет сделать вывод о корректности работы алгоритма сегментации.
Результаты оценки эффективности сегментации и классификации представлены на рис.2.
Рис.2 а - зависимость вероятности правильной сегментации от уровня зашумления полезного сигнала, б - зависимость вероятности ошибки классификации от уровня зашумления полезного сигнала (штрихованная линия - доверительный интервал).
Далее проводятся эксперименты по анализу реальных сигналов.
1. Анализ сигналов сейсмоакустической эмиссии. Сигналы сейсмоакустической эмиссии регистрировались на скважине НИС-1 в г.Петропавловске- Камчатском. Два сейсмоприемника были расположены в скважине на техногенной пробке и грунте. В результате анализа данных сигналов по предложенной методике были установлены вариации сигнала в зависимости от времени суток и проведен сравнительный анализ сигналов двух датчиков. При исследовании модели применялся метод ассоциативных правил позволивший выделить фоновые процессы (частые зависимости) и артефакты.
2. Анализ волновых возмущений в атмосфере на основании данных катастрофического извержения вулкана Шивелуч 12 ноября 1964 г. На рис.3 приведен результат сегментации сигнала волновых возмущений. Видно, что сигнал был разделен на несколько сегментов, которые согласуются с различными стадиями извержения вулкана Шивелуч. Стрелками на рисунке обозначены моменты вступления акустического сигнала с периодом меньше 20 с. Каждому из выделенных сегментов сигнала соответствуют определенные частотные структуры.
Каждому из сегментов могут быть сопоставлены физические процессы. Так последовательность сегментов S4-S6 четко выделяют особенности акустического сигнала от первого источника, связанного с образованием обвальной каменной лавины. Сегмент S9 приходится на начало работы второго акустического источника, которым является начало эксплозивной деятельности в кратере вулкана после обрушения части постройки. Нестационарность в процессе, начавшейся за тем плинианской деятельности вулкана, отражается сегментами S10 -S11. Эти нестационарности не были обнаружены при обработке сигнала обычными методами. Следует отметить, что по времени сегменты S10-S11 совпадают с точками экстремумов флуктуаций атмосферного давления, регистрируемых метеорологическим барографом. Данный факт подтверждает физическую основу выделенных сегментов.
Рис.3 Результат обработки сигнала волновых возмущений, зарегистрированные на станции Козыревск
3. Анализ волновых возмущений в атмосфере от эксплозий вулкана Карымский (1997-1999 гг.). В исследованиях Фирстова П.П., Маневича А.Г. и Озерова А.Ю. проведен предварительный анализ особенностей генерации акустических сигналов в атмосфере, сопровождавших эксплозивную деятельность вулкана Карымский, исследовались особенности отдельных импульсов, которые представляют собой слабые ударно-воздушные волны (УВВ), связанные с разрушением (фрагментацией) газонасыщенной магмы в кратере вулкана. Поскольку средняя длительность УВВ составляет ~2 с (250 точек), то длина элементарного блока была выбрана в 256 точек. Число уровней 5, вейвлет Мейера. На рис.4, где показан результат сегментации акустического сигнала (нижняя кривая), сегменты класса 4 четко выделяют моменты возникновения УВВ. Между цугами УВВ на участках 1,2 (см. рис.4) сигнал меняет структуру и появляются сегменты 6 класса.
Размещено на http://www.allbest.ru/
Рис.4 Результат обработки флуктуаций атмосферного давления во время эксплозии вулкана Карымский
Обычно после серии УВВ происходит стационарное истечение пепло-газовой смеси из кратера вулкана, которое сопровождается аэродинамическим шумом звукового диапазона. Несмотря на то, что аппаратура предназначена для регистрации инфразвуковых колебаний, происходит «просачивание» высоких частот за счет большой интенсивности аэродинамического шума, что отслеживается в процессе сегментации сигнала.
Таким образом, разработанная методика позволяет выделить особенности в акустическом сигнале, связанные с изменением физики эксплозивного процесса при вулканических эксплозиях.
Заключение
В диссертационной работе предложен метод интеллектуального анализа (Data mining) в системах обработки сигнальной информации в приложении к геофизическим данным.
Итогом проведенных исследований явились следующие научные и практические результаты:
1. Предложен новый подход к исследованию сигнальной информации в геофизике на основе решения задач интеллектуального анализа.
2. Разработан подход к описанию сигналов с использованием лучшего вейвлет-пакетного разложения.
3. Предложена структурная модель сигналов геофизических полей.
4. Разработан алгоритм сегментации сигналов геофизических полей и классификации на основе лучшего вейвлет-пакетного разложения.
5. Разработан программный комплекс, реализующий предложенные алгоритмы идентификации и исследования структурной модели.
6. Проведены экспериментальные исследования по анализу реальных сигналов геофизических полей с использованием предложенной методики, позволившие выделить ранее неизвестные особенности сигналов.
Дальнейшие исследования могут быть направлены на совершенствование алгоритма сегментации путем создания системы упорядочивания библиотеки элементарных блоков, и, следовательно, позволят более гибко их классифицировать. Развитие методов анализа последовательностей, предложенных в работе, позволит разработать систему достоверного прогнозирования поведения временных рядов.
Опубликованные работы по теме диссертации
1. Geppener, V.V. Using Adaptive and Intellectual Methods for Seismic Noise Model Construction (Адаптивные и интеллектуальные методы в построении модели сейсмического шума) [Текст]/ V.V. Geppener, A.B. Tristanov, O.P. Rulenko, P.P. Firstov // Pattern Recognition and Image Analysis: Advances in Mathematical Theory and Applications. - 2005.- Vol. 15, № 2. - P. 549-552.
2. Геппенер, В.В. Применение вейвлет-преобразования в системах DATA MINING [Текст] / В.В. Геппенер, А.Б. Тристанов, П.П. Фирстов // Междунар. конф. по мягким вычислениям и измерениям (SCM'2006), - Сб. докл., г. Санкт-Петербург, 27-29 июня 2006 г. - СПб: Изд-во СПбГЭТУ "ЛЭТИ", 2006. - Т.1. - С. 111-114.
3. Геппенер, В.В.Применение методов data mining в обработке сигнальной информации (в геофизических исследованиях) [Текст] / В.В. Геппенер, А.Б. Тристанов, П.П. Фирстов // Геофизический мониторинг Камчатки: Материалы науч.-технич. конф., Петропавловск-Камчатский, 17-18 янв. 2006 г. - Петропавловск-Камчатский: КФ ГС РАН, 2006.- C.178-184.
4. Геппенер, В.В. Использование адаптивных и интеллектуальных методов в задаче построении модели сигналов сейсмического шума [Текст]/ В.В. Геппенер, А.Б. Тристанов, О.П. Руленко, П.П. Фирстов // Proceedings of the 7-th International Conference on Рattern Recognition and Image Analysis: New Information Technologies. - 2005.-Vol.2. - P.670-672.
5. Геппенер, В.В. Применение методов сегментации к обработке геофизических данных [Текст]/В.В. Геппенер, А.Б. Тристанов, П.П. Фирстов // Материалы ежегод. конф., посвящ. дню вулканолога.-Петропавловск-Камчатский: Наука - для Камчатки, 2005. - C.183-187
6. Фирстов, П.П. Опыт регистрации сейсмоакустического шума в скважине НИС-1 на Петропавловск-Камчатском геодинамическом полигоне [Текст]/П.П. Фирстов, А.Б. Тристанов, О.П. Руленко// Сейсмоакустика переходных зон: Четвертый всерос. симпозиум: материалы докл.- Владивосток: Изд-во Дальневост. ун-та.- 2005.- С.63-65
7. Геппенер, В.В. Исследование нарушений стационарности сигналов методом вейвлет-анализа [Текст]/В.В. Геппенер, А.Б. Тристанов // Междунар. конф. по мягким вычислениям и измерениям (SCM'2004): Сб. докл., г. Санкт-Петербург, 17-19 июня 2004 г. - СПб: Изд-во СПбГЭТУ "ЛЭТИ", 2004. - Т.1. - С. 151-155.
8. Руленко, О.П. Особенности поведения микросейсмического шума зарегистрированного в скважине НИС-1 в июле-августе 2003 года [Текст]/О.П. Руленко, А.Б. Тристанов, П.П. Фирстов // Материалы ежегод. конф., посвящ. дню вулканолога. - Петропавловск-Камчатский: Наука - для Камчатки, 2004. - С.82-89
9. Тристанов, А.Б. Обнаружение изменений в сигнале методом вейвлет-анализа [Текст] / А.Б. Тристанов // Проектирование инженерных и научных приложений в среде MATLAB: тр. второй всерос. науч. конф.-- М.: Изд-во ИПУ РАН, 2004. - С. 1798-1821
10. Мандрикова, О. В. Исследование локальных особенностей временного ряда с использованием пакета Wavelet Toolbox. [Текст]/ О.В. Мандрикова, А.Б. Тристанов // Проектирование научных и инженерных приложений в среде MATLAB: тр. всерос. науч. конф.- М.: Изд-во ИПУ РАН, 2002.- С. 242-261
11. Мандрикова, О.В. Представление о вейвлет-анализе и возможность его использования для рядов геофизической информации на примере рядов мониторинга подпочвенного радона на Петропавловске-Камчатском геодинамическом полигоне [Текст]/ О.В. Мандрикова, А.Б. Тристанов, П.П. Фирстов //Тр. КамчатГТУ.- 2002.- Вып. 16.- С.139-153.
Размещено на Allbest.ru
...Подобные документы
Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.
контрольная работа [208,4 K], добавлен 14.06.2013Разработка и реализация многомасштабного анализа дискретных сигналов путем вейвлет-преобразований и структурной индексации, объединение методов в единую систему. Поисково-исследовательский характер и направление на упрощение многомасштабного анализа.
дипломная работа [3,0 M], добавлен 01.07.2008Моделирование процесса обработки 500 сигналов, поступающих с датчиков. Определение среднего времени задержки сигналов в канале и линии-ЭВМ и вероятности переполнения входных накопителей. Разработка и описание алгоритма функционирования программной модели.
курсовая работа [140,7 K], добавлен 09.04.2013Современные семейства ПЛИС фирмы Xilinx, их характеристики и значимость в процессе построения систем цифровой обработки сигналов. Создание базы параметров, фактов и запрещенных комбинаций для решения открытой задачи поискового проектирования модели ПЛИС.
курсовая работа [3,6 M], добавлен 14.12.2012Среднеквадратические значения напряжения и тока как одни из параметров периодических сигналов. Специфические особенности использования аппроксимационного подхода для определения квазидетерминированных сигналов и метрологического анализа результатов.
диссертация [3,7 M], добавлен 04.06.2017Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Data mining, developmental history of data mining and knowledge discovery. Technological elements and methods of data mining. Steps in knowledge discovery. Change and deviation detection. Related disciplines, information retrieval and text extraction.
доклад [25,3 K], добавлен 16.06.2012Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.
контрольная работа [565,6 K], добавлен 02.09.2010Разработка имитационной модели "Перекресток" для анализа бизнес-процессов предприятия и принятия решения в сложных условиях. Алгоритм построения имитационной модели на основе CASE-средств. Обзор программного обеспечения для имитационного моделирования.
дипломная работа [2,6 M], добавлен 22.11.2015Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.
контрольная работа [2,0 M], добавлен 13.06.2014Теория игр: основные понятия, модели, принципы; элементарные приемы решения игр в "чистых" и "смешанных" стратегиях. Разработка алгоритма программного обеспечения, реализующего математический аппарат теории игр. Выбор инструмента программирования Delphi.
дипломная работа [255,1 K], добавлен 27.03.2011Окружение и функциональные требования, предъявляемые к электротехнической лаборатории. Функциональное моделирование с использованием методологии IDEF. Выбор и обоснование средств разработки прикладного обеспечения. Описание и виды программных модулей.
дипломная работа [5,7 M], добавлен 24.06.2015Создание автоматизированной системы диагностики конструктивных дефектов на основе акустических сигналов. Структурная схема автоматизированной системы. Методика анализа звукового сигнала. Алгоритм сравнения полученных данных с помощью модуля Diag.
курсовая работа [658,5 K], добавлен 14.07.2012Концепция построения виртуальной лаборатории (ВЛ) "Программирование микроконтроллерных систем". Принцип построения лабораторного практикума. Архитектура аппаратного обеспечения ВЛ. Аппаратные способы реализации генератора сигналов произвольной формы.
магистерская работа [669,4 K], добавлен 29.06.2009Особенности и возможности программного обеспечения, необходимого для построения трехмерной модели (на примере вентиля - клапана). Ознакомление с инструментарием программного обеспечения профессионального трехмерного и двумерного моделирования AutoCAD.
курсовая работа [3,4 M], добавлен 13.12.2020Роль информации в мире. Теоретические основы анализа Big Data. Задачи, решаемые методами Data Mining. Выбор способа кластеризации и деления объектов на группы. Выявление однородных по местоположению точек. Построение магического квадранта провайдеров.
дипломная работа [2,5 M], добавлен 01.07.2017- Численные расчёты динамики генных сетей на основе редукции графов в рамках синхронной булевой модели
Теория функционирования генных сетей. Разработка алгоритма анализа динамики генной сети с целью выявления всех её стационарных и циклических устойчивых состояний в рамках булевой модели генной сети. Создание программного средства, его реализующего.
курсовая работа [1,4 M], добавлен 28.02.2012