Модели интеллектуального анализа данных
Изучение моделей и методов автоматизации процедур обработки экспертных знаний на основе алгоритмов их интеллектуальной обработки для повышения уровня формализации отдельных этапов экспертиз в составе ситуационных центров органов государственной власти.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 29.04.2017 |
Размер файла | 165,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Актуальной задачей в области принятия решений органами государственной власти является своевременное, стабильное и эффективное информационное обеспечение всех участников и всего набора процедур принятия решений. В этой связи необходима организация и функционирование целого комплекса отдельных подсистем в рамках единой платформы для оперативного получения требуемой информации, организации эффективного взаимодействия участников процесса принятия решений и контуров обратной связи по «ключевым точкам». Описанные задачи являются чрезвычайно актуальными и своевременными, требуя для решения применения системного подхода и его реализации на базе современных информационных технологий. В такой ситуации наиболее эффективным средством для комплексного анализа, процедур информационного обеспечения, оценок и мониторинга в рамках принятия решений выступает Ситуационный центр, построенный на платформе интеллектуальной информационно-аналитической системы.
В настоящее время системы поддержки решений и методы ситуационного управления стали развиваться в направлении адаптации к сложной динамике развития политических, экономических и социальных управленческих ситуаций. Современные системы поддержки принятия решения в большинстве случаев функционируют в условиях нечёткости и противоречивости исходной информации. В этой ситуации становятся актуальными вопросы, связанные с описанием и формализацией проблемы, эффективного подбора экспертов с учётом специфики проблемной области и представления информации заинтересованным лицам для её последующей обработки и анализа. автоматизация алгоритм интеллектуальный экспертиза
Существующие методы и алгоритмы для решения указанных вопросов либо отсутствуют или находятся на стадии разработки, либо недостаточно эффективны в использовании. В связи с этим особенно актуальным становится ряд проблем:
· недостаточная эффективность процессов формализации проблемы, описанной на естественном языке,
· недостаточная эффективность процедур, связанных с формализацией знаний об экспертах для последующего формирования проблемно-ориентированных экспертных групп,
· недостаточная эффективность представления, визуализации и интерпретации получаемых данных и экспертных знаний.
В этой связи нами для детального исследования были поставлены следующие цели и задачи, соответствующие указанным проблемам:
1. Повышение эффективности использования методов формализации проблемы описанной на естественном языке
· Разработка методик морфологического, синтаксического и лингвосемантического анализа описания проблемы на естественном языке.
· Разработка методики формирования набора ключевых слов (тезауруса проблемы)
· Разработка методики построения семантической сети (формальное представление проблемы)
2. Повышение эффективности процедур, связанных с формализацией знаний об экспертах для последующего формирования проблемно-ориентированных экспертных групп
· Разработка методик морфологического, синтаксического и лингвосемантического анализа анкетной информации об экспертах (сфера научных интересов, тематика публикаций, опыт проведения экспертиз и т.д.).
· Разработка методики формирования набора ключевых слов характеризующих сферу деятельности эксперта (тезауруса эксперта)
· Разработка методики построения семантической сети (формальное описание эксперта в рамках модели специалиста)
3. Повышение эффективности представления, визуализации и интерпретации получаемых данных и экспертных знаний
· Разработка методик визуализации данных, использования когнитивных графических образов и использования динамических интерактивных сред в процессе формировании мнений экспертов и ЛПР.
· Разработка методики построения и применения когнитивных моделей в рамках совместного использования естественного и формального описаний в процедурах формирования и представления промежуточных и итоговых результатов отдельных этапов принятия решений
· Разработка методики интерпретации информации (информационных потоков), возникающих в процессе взаимодействия участников информационного обмена в ходе принятия решений.
При решении указанных задач необходимо учитывать специфику как процесса принятия решений в целом, так и отдельных процедур между участниками процесса принятия решений (и отдельными подсистемами СППР), а именно:
· Слабая (частичная) формализуемость обрабатываемой информации.
· Высокая степень разнородности информационных потоков в СППР и отсутствие (слабое развитие) интерфейсов взаимодействия между ними, а также сложности представления информации в единой форме на всех этапах принятия решений.
· Необходимость совместного использования разнородных режимов (регламентов) обработки данных;
· Недостаточная степень автоматизации процессов интеграции экспертных знаний в контур СППР
На основе анализа выявленных особенностей представляется целесообразным использование нечёткого подхода в решении поставленных задач как платформы для применения методов и подходов лингвосемантического анализа и нечёткого когнитивного моделирования.
На этапе предварительной обработки и предметной классификации будем рассматривать экспертную информацию в ЕЯ-форме как текст, «набор слов», используя численные характеристики употребления тех или иных терминов, вне зависимости от порядка их употребления. Тогда вероятность того, что термин w, принадлежащий формируемому тезаурусу W, встречается в описании проблемы или корпусе анкет экспертов d (множества D тематического классификатор), т.е. принадлежит той или иной предметной области t:
(1),
где t - элемент множества T предметных областей.
Для оценки максимального правдоподобия параметров модели, зависящей от скрытых переменных, используем EM-алгоритм. Параметры предварительного семантического анализа P(w|t) и P(t|d) определим следующим образом. Пусть r - число итераций. На E-шаге вычислим P(t|w,d)(r):
На M-шаге оценим параметры:
где N(w,d) - число вхождения элемента тезауруса w в рассматриваемый текст d. Описанный процесс обучения повторяется до сходимости параметров. Однако при использовании данного алгоритма параметры часто попадают в область локального оптимума, соответственно, эффективность модели не улучшается в результате обучения. Введен дополнительный параметр 0<в?1 для управления скоростью обучения. Выражение для M-шага примет вид:
Для достижения глобального оптимума изначально принимаем в=1 с последующим уменьшением посредством умножения на 0<з<1, пока получаемые оценки правдоподобия не улучшатся.
Определим суммарные вероятности W(w,t) и D(d,t) следующим образом:
По формуле (5) получим:
Для формирования ребер семантической сети и оценки меры семантической близости выделенных понятий (элементов тезауруса) в настоящее время используются четыре распространенных оценки: меры Jaccard, Overlap, Dice и PMI (point-wise mutual information). Эти метрики исходят из предположения, что высокие частоты совместной встречаемости терминов в тексте указывают на значительную степень ассоциации, что в свою очередь обуславливает наличие семантических связей между ними.
Для формирования итоговых обобщений имеющихся описаний и получаемой экспертной информации предложен подход, заключающийся в формировании семантических пространств (ареалов) максимальной близости на основе применения EA-алгоритма к результатам лингвосемантического анализа.
Обозначим и1,…,иk - формализованная модель текста с k различными предметными областями полученной семантической сети и иB - модель набора текстов C. Термин w в тексте d оценивается следующей величиной:
где w - термин в тексте d, рd;j -вес текста d для выбора j-й предметной области иB (), и лB - вес иB .
Использование модели иB направлено на большее разделение моделей предметных областей, т.к. иB присваивает высокие вероятности незначимым и неинформативным словам, снижая их влияние на модели предметных областей. иB оценивается на наборе текстов C и не меняется в ходе дальнейших оценок:
Введем дополнительный параметр оценки Л = {иj, рd;j|dC, 1? j? k }. Логарифмическая оценка правдоподобия C:
(12)
где c(w; d) - число терминов w в тексте d.
Возникает задача найти такое значение параметра оценки Л, которое максимизирует (12). Другими словами,
Введем «скрытые переменные», характеризующие термины: {zd,w} и p(zd,w=B) - вероятность того, что термин w в тексте d подчиняется выбранному фоновому распределению (модель набора текстов иB). p(zd,w=j) означает, что термин w в тексте d встречается в контексте предметной области j, и не учитывается притом общей моделью текста (не является незначимым). Получим выражения для шагов EM-алгоритма.
Е-шаг:
(14)
(15)
M-шаг:
(16)
(17)
Зная оценочные параметры каждого термина, группы терминов (семантические ареалы), принадлежащих предметной области j условно будем считать "псевдотекстом", итоговым обобщением по j-й предметной области текста. Используя модель (17), мы агрегируем все семантические ареалы термина w, принадлежащего предметной области j (по всем текстам), и нормализуем выражение {p(w|иj)}wV для достижения ? wV p(w|иj)=1.
В рамках разрабатываемой системы, как было указано выше, должны решаться следующие основные и инфраструктурные задачи:
· автоматизированные: сбор, обработка и хранение экспертных данных;
· создание и ведение БД на основании полученных экспертных знаний;
· повышение оперативности и качества управленческих решений на основе использования аналитических инструментальных средств;
· проведение мониторинга и интеллектуального анализа текущей ситуации;
· возможности визуализации информации;
· инструментальная и информационная поддержка экспертно-аналитической деятельности ЛПР и специалистов;
· обеспечение защиты, конфиденциальности и целостности информационных ресурсов системы.
На этапе практической реализации разработанных моделей, подходов и алгоритмов в рамках программного комплекса, в его составе целесообразно выделить ряд подсистем:
- Подсистема визуализации и представления данных (интерактивное представление данных, построение когнитивных моделей, формализация результатов, интерпретация информации);
- Подсистема формирования проблемно-ориентированных экспертных групп (подбор кандидатур с учётом специфики проблемной области на основе методик и алгоритмов анализа и формализации проблем, формализации данных об экспертах для формирования группы);
- Подсистема организации и проведения экспертиз (в том числе формирование списка вопросов к обсуждению, сбор, обработку и анализ получаемых экспертных знаний с их последующей формализацией).
В итоге, по результатам анализа заключения экспертной группы возможно извлечение новых знаний с занесением их в БЗ для последующего применения в автоматизированном контуре принятия решений. Такой подход позволит проводить не только выборочную экспертизу, но и осуществлять экспертную оценку и контроль в режиме реального времени, а в случае необходимости - и постоянно: для оперативного обнаружения негативных факторов и выработки рекомендаций по их устранению с помощью сформированной проблемно-ориентированной экспертной группы. При этом вновь получаемые знаний интегрируются в базу знаний ситуационного центра, что позволяет при повторном возникновении аналогичной проблемы задействовать автоматизированный контур, что позволит экономить значительные ресурсы и время на принятие решений.
Список литературы
1. Ильин, Н.И. Новые направления развития ситуационных центров органов государственной власти/ Ситуационные центры и перспективные информационно-аналитические средства поддержки принятия решений: Матер. научно-практ. конф./ РАГС. - М.:Изд-во РАГС, 2008. - С. 12 - 16.
2. Трахтенгерц, Э.А. Субъективность в компьютерной поддержке управленческих решений. М.: СИНТЕГ, 2001. - 256 с.
3. Елагин В. В. Теоретические основы создания системы информационно-аналитического обеспечения государственного управления: диссертация доктора технических наук; 05.13.10: Челябинск, 2006. - 440 c.
4. Информационно-аналитические средства поддержки принятия решений и ситуационные центры// Материалы научно-практической конференции, РАГС, 2008 года / Под общ. ред. А.Н. Данчула. -- М.: Изд-во РАГС, 2009. -- 343 с.
5. Цикунов, Ю.Ф. Ситуационный центр в системе управления регионом/ Ю.Ф. Цикунов // Ситуационные центры и перспективные информационно-аналитические средства поддержки принятия решений: Матер. научно-практ. конф./ Российск. акад. гос. службы. - М.:Изд-во РАГС, 2008. - С. 16 - 20.
Размещено на Allbest.ru
...Подобные документы
Анализ существующих алгоритмов обработки информации человеком и современных моделей памяти. Разработка алгоритмов и математической модели ассоциативного мышления. Имитационная модель обработки информации. Компьютерный эксперимент по тестированию модели.
курсовая работа [2,3 M], добавлен 19.11.2014Обзор моделей анализа и синтеза модульных систем обработки данных. Модели и методы решения задач дискретного программирования при проектировании. Декомпозиция прикладных задач и документов систем обработки данных на этапе технического проектирования.
диссертация [423,1 K], добавлен 07.12.2010Изучение применяемых в программировании и информатике структур данных, их спецификации и реализации, алгоритмов обработки данных и анализ этих алгоритмов. Программа определения среднего значения для увеличивающегося количества чисел заданного типа.
контрольная работа [16,0 K], добавлен 19.03.2015Проблема представления знаний. Представление декларативных знаний как данных, наделенных семантикой. Представление процедурных знаний как отношений между элементами модели, в том числе в виде процедур и функций. Представление правил обработки фактов.
курсовая работа [33,1 K], добавлен 21.07.2012Обзор существующего программного обеспечения для автоматизации выделения границ на изображении. Разработка математической модели обработки изображений и выделения контуров в оттенках серого и программного обеспечения для алгоритмов обработки изображений.
дипломная работа [1,7 M], добавлен 27.03.2013Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.
реферат [22,5 K], добавлен 05.02.2011Изучение и программная реализация в среде Matlab методов обработки, анализа, фильтрации, сегментации и улучшения качества рентгеновских медицинских изображений. Цифровые рентгенографические системы. Разработка статически обоснованных алгоритмов.
курсовая работа [4,7 M], добавлен 20.01.2016Структура автомата для сбора данных. Программы, реализующие заданный пользователем алгоритм автоматизации процедуры обработки журнальных данных. Описание микропроцессорной системы, ее упрощенная модель, система команд, блок-схема алгоритма обработки.
контрольная работа [65,8 K], добавлен 14.11.2010Разработка программы для решения инженерных задач с использованием функций, процедур и сложных типов данных, в том числе динамических массивов и объединений. Интерфейс ввода/вывода. Схемы алгоритмов отдельных подзадач. Технические требования к программе.
курсовая работа [60,7 K], добавлен 26.11.2012Изучение существующих методов и программного обеспечения для извлечения числовых данных из графической информации. Программное обеспечение "graphtrace", его структура и методы обработки данных. Использование этой системы для данных различного типа.
дипломная работа [3,9 M], добавлен 06.03.2013Изучение особенностей информационного процесса обработки данных. Процессы, связанные с поиском, хранением, передачей, обработкой и использованием информации. Основные режимы обработки данных на ЭВМ. Организация обслуживания вычислительных задач.
реферат [130,9 K], добавлен 28.09.2014Общая характеристика и функциональные возможности системы "Компьютерное тестирование". Связи между информационными объектами. Проектирование алгоритмов обработки данных. Реализация алгоритмов обработки информации, разработка соответствующих макросов.
контрольная работа [542,8 K], добавлен 19.10.2010Разработка программы на языке Си++ и осуществление постановки и выбора алгоритмов решения задач обработки экономической информации, создание и редактирование базы данных, сортировка записей по определенному запросу, анализ эффективности обработки данных.
контрольная работа [316,8 K], добавлен 28.08.2012Системы управления базами данных и их использование для решения задач автоматизации предприятия. Разработка информационного и программного обеспечения для автоматизации хранения и обработки информации при организации работы агропромышленного предприятия.
курсовая работа [607,1 K], добавлен 07.05.2011Применение нейрокомпьютеров на российском финансовом рынке. Прогнозирование временных рядов на основе нейросетевых методов обработки. Определение курсов облигаций и акций предприятий. Применение нейронных сетей к задачам анализа биржевой деятельности.
курсовая работа [527,2 K], добавлен 28.05.2009База данных как основа автоматизации. Разработка, описание и реализация программного обеспечения "Точность и правильность методов и результатов измерений для центральной заводской лаборатории ОАО "Акрилат". Листинг, исходные коды программы и базы данных.
дипломная работа [1,0 M], добавлен 23.06.2012Проблема улучшения качества отпечатков пальца с целью повышения эффективности работы алгоритмов биометрической аутентификации. Обзор алгоритмов обработки изображений отпечатков пальцев. Анализ алгоритма, основанного на использовании преобразования Габора.
дипломная работа [4,5 M], добавлен 16.07.2014Использование информационных технологий управления, поддержки и принятия решений, экспертных систем и обработки данных. Автоматизация бухгалтерии на примере ООО "Уралконфи": универсальная бухгалтерская программа "1С: Бухгалтерия" и ее основные функции.
курсовая работа [1,9 M], добавлен 26.03.2012- Разработка алгоритмов и программ для определения сходства семантических сетей на основе их сложности
Семантические сети как модели представления знаний. Основные методы определения сходства графовых моделей систем. Метод решения задач определения сходства семантических сетей на основе их сложности. Разработка алгоритмов и их программная реализация.
дипломная работа [1,3 M], добавлен 17.12.2011 Разработка блок-схемы и программы обработки одномерного массива с доступом к элементам с помощью индексов и с помощью указателей. Словесное описание алгоритма и пользовательского интерфейса, листинг программы обработки матрицы и результат её выполнения.
курсовая работа [391,1 K], добавлен 30.09.2013