Создание компьютерной системы интеллектуального анализа фармакологических данных
Разработка архитектуры интегрированной системы интеллектуального анализа гибридных данных. Исследование возможных путей учёта числовых характеристик в рамках логико-комбинаторного анализа. Рассмотрение числовых характеристик химических соединений.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | русский |
Дата добавления | 27.09.2018 |
Размер файла | 65,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
С использованием разработанного ядра была заново реализована экспериментальная ДСМ-система для прогнозирования контрпродуктивных свойств химических соединений. Ей посвящен раздел 3.3. Представление изучаемого объекта в ней осталось прежним: набор кодов ФКСП химического соединения в качестве структурной компоненты и некая физико-химическая характеристика соединения (предоставляемая извне или вычисляемая в процессе работы) - в качестве числовой компоненты. Однако теперь представление сходства может изменяться независимо. В экспериментальной системе числовая компонента сходства представлена в двух вариантах - посредством алгебры интервалов и в виде линейной регрессионной модели. Раздел 3.3.1 занимается вопросом использования линейной регрессии в качестве сходства числовых величин. В этом случае числовая компонента объекта должна быть парой чисел (xi,yi), а сходство 2-х (или больше) таких пар выражается параметрами в0 и в1 линейной регрессии y = в0 + в1x + е. В качестве значений этих параметров используются робастные оценки:
, .
Эквивалентность сходств определяется как равенство соответствующих параметров регрессии. В качестве оценки «информативности» сходства при этом используется коэффициент детерминации r2:
«Пустыми» регрессионными моделями (сходствами) считаются те, коэффициент детерминации («информативность») которых ниже определяемого пользователем порога. Следует заметить, что часто при решении реальных задач «пустые» сходства оказываются несколько более сложными, чем «пустые» структуры данных, используемые для представления сходства. Например, при рассмотрении полиароматических углеводородов, представленных в виде множества кодов ФКСП, «пустым» сходством следует считать не пустое множество кодов, а множество, состоящее из нескольких кодов, соответствующих бензольному кольцу, так как все объекты будут включать эти коды. (Хотя такие фрагменты, скорее всего, отфильтруются запретом на контрпримеры, такая «подсказка» со стороны человека - участника человеко-машинной системы - может ускорить работу). В случае регрессионной модели выбранное представление не предлагает «естественного» определения «пустого» сходства, но из практических соображений вряд ли имеет смысл рассматривать регрессионные модели с коэффициентом детерминации меньше 0.7. В любом случае, пользователь имеет возможность задать это пороговое значение.
Еще одним вариантом комбинирования численного и логико-комбинаторного анализа, реализованным в системе, является «регрессионный фильтр». Здесь объект включает числовую компоненту для регрессионного анализа, а сходство - лишь структурную компоненту. Соответственно, при определении эквивалентности и вложимости сходств принимается во внимание лишь структурная часть. Однако сходство считается также пустым, если коэффициентом детерминации для соответствующей регрессионной модели меньше заданного порога. Этот подход является воплощением идеи контролирования комбинаторной «лавины» статистическими «поглотителями».
В разделе 3.3.2 приводятся результаты экспериментов с системой. Показывается, что применение «регрессионного фильтра» может несколько улучшить степень покрытия исходных фактов результирующим набором гипотез. Применение же регрессионной модели на всех этапах ДСМ-анализа позволяет добиться 100% покрытия. Вместе с тем наблюдается следующие эффекты. Во-первых, поскольку у всех «-1» гипотез регрессионная модель одна и та же (y = 0), то она не оказывает никакого влияния на формирование набора «-1» гипотез. Во-вторых, в силу того, что эта регрессионная модель «сильно» отличается от всех моделей «+1» гипотез, то фактически пропадает отбор по «запрету на контр-примеры». Этим, в частности, объясняется значительное увеличение числа «+1» гипотез. (Последний эффект наблюдается также при использовании модели интервалов).
В Заключении сформулированы основные научные результаты работы, а также рассматриваются возможные направления развития системы.
Приложение содержит руководство пользователя системы, а также результаты экспериментов с системой.
Основные результаты работы
1. Сделан обзор, классификация и анализ существующих методов интеллектуального анализа данных, а также анализ тенденций и потребностей в их развитии.
2. Разработана архитектура интегрированной системы интеллектуального анализа гибридных данных.
3. Разработан распараллеливаемый алгоритм поуровневого построения решётки ДСМ-гипотез, оптимизированный для применения в задачах с трудоёмкими операциями нахождения сходства.
4. Реализован ДСМ-решатель со встроенной возможностью расширения набора проверяемых эмпирических зависимостей и определения операции локального сходства множества объектов, а также выполняющий итерационное применение правил правдоподобного вывода.
5. Реализован модуль для квантовомеханического расчёта числовых характеристик класса химических соединений.
6. Создана интеллектуальная система прогнозирования контрпродуктивных свойств химических соединений, совместно использующая логико-комбинаторные и численные методы для анализа структурно-числовых данных.
Основные результаты изложены в следующих публикациях
1. Максин М.В., Харчевникова Н.В. Квантовомеханический модуль системы, реализующей комбинаторно-численный подход к проблеме прогнозирования свойств химических соединений. // НТИ. Сер.2. - 2002. - № 6.- С. 57-62.
2. Максин М.В. Интеллектуальный анализ данных в науках о жизни. // НТИ. Сер.2. - 2003. - № 9.- С. 16-27.
3. Харчевникова Н.В., Максин М.В., Блинова В.Г., Добрынин Д.А., Жолдакова З.И. Прогноз канцерогенности полициклических ароматических углеводородов с использованием квантово-химического модуля генерации метаболитов интеллектуальной ДСМ-системы. // НТИ. Сер.2. - 2003. - № 11.- С. 12-17.
4. М.В. Максин, Н.В. Харчевникова, В.Г. Блинова, Д.А. Добрынин, 3.И. Жолдакова Система, реализующая комбинаторно-численный подход к проблеме прогноза свойств химических соединений. Прогноз канцерогенности полициклических ароматических углеводородов (ПАУ). // НТИ. Сер.2. - 2004. - № 1.- С. 14-18.
5. Максин М.В. Об одном подходе к проблеме комбинированного использования логических и численных методов в интеллектуальном анализе данных. // НТИ. Сер.2. - 2004. - № 10.- С. 14-19.
6. Харчевникова Н.В., Блинова В.Г., Добрынин Д.А., Максин М.В., Жолдакова З.И. Применение ДСМ-метода и квантово-химических расчётов для прогноза канцерогенности и хронической токсичности галогензамещённых алифатических углеводородов. // НТИ. Сер.2. - 2004. - № 12.- С. 21-28.
7. Максин М.В. Архитектура интегрированной ДСМ-системы интеллектуального анализа гибридных данных. // НТИ. Сер.2. - 2006. - № 9.- С. 10-17.
Литература
1. Финн В. К. «Об особенностях ДСМ-метода как средства интеллектуального анализа данных» // НТИ. Сер. 2 - 2001 - № 5 - стр. 1-3.
2. Финн В. К. Синтез познавательных процедур и проблема индукции. // НТИ. Сер. 2. - 1999. - № 1-2. - С. 8-45.
3. Маневич С. И., Харчевникова Н. В., Дьячков П. Н. «Прогнозирование контрпродуктивных свойств химических соединений при комбинированном использовании структурных формул и численных энергетических параметров» // НТИ. Сер.2. - 2000. - № 5.
4. Маневич С.И. Расчет дескрипторов соединений органической химии // НТИ. Сер.2. - 1996. - Вып.5 - 6.
5. Панкратов Д.В. Логические и программные средства качественного анализа социологических данных. Автореферат диссертации на соискание ученой степени к. т. н. М. 2001
6. Блинова В.Г., Добрынин А.А. Языки представления химических структур в интеллектуальных системах для конструирования лекарств // НТИ. Сер. 2. - 2000. - № 6. - С. 14-21.
7. Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P. "From Data Mining to Knowledge Discovery in Databases" // AI Magazine 17(3): 37-54, 1996.
8. Lavrac, N., Keravnou, E., Zupan B. "Intelligent Data Analysis in Medicine" // Encyclopedia of Computer Science and Technology 42:113-157 / Eds. A. Kent et al., Dekker, New York, 2000.
9. Виноградов Д. В. "Формализация правдоподобных рассуждений в логике предикатов" // НТИ. Сер. 2. - 2000. - №11. - С. 17-20.
10. Mitchell, T. Machine Learning, McGrow Hill, 1997.
11. Quinlan, R. J. "Induction of decision trees" // Machine Learning, 1: 81 - 106, 1986.
12. Kramer, S. "Structural Regression Trees" // Proceedings of the Thirteenth National Conference on Artificial Intelligence (AAAI-96), 812-819, AAAI Press/MIT Press, 1996.
13. Clark, P., Niblett, T. "The CN2 Induction Algorithm" // Machine Learning, 3(4):261 - 283, 1989.
14. Michalski, R. S., Mozetic, I., Hong, J., Lavrac, N. "The multi-purpose incremental learning system AQ15 and its testing application on three medical domains." // Proceedings of 5th National Conference on Artificial Intelligence, 1041-1045, Morgan Kaufmann, 1986.
15. S. Muggleton, S., Feng, C. "Efficient induction of logic programs" // Proceedings of the 1st Conference on Algorithmic Learning Theory, 368 - 381, 1990.
16. Quinlan, J. R., Cameron-Jones, R. M. "FOIL: A Midterm Report" // Proceedings of the 6th European Conference on Machine Learning 667: 3 - 20, Springer-Verlag, 1993.
17. Muggleton, S. "Inverse Entailment and Progol" // New Generation Computing, Special Issue on Inductive Logic Programming 13(3-4): 245 - 286, Ohmsha, 1995.
18. DesJardins, M., Gordon D. F. "Evaluation and selection of biases in machine learning" // Machine Learning Journal 5:1--17, 1995.
19. Финн В. К. "Правдоподобные выводы и правдоподобные рассуждения" // Итоги науки и техники. Сер. Теория вероятностей. Математическая статистика. Теоретическая кибернетика. Т. 28. - М.: ВИНИТИ, 1988 - С. 3.
20. Забежайло М. И. "Формальные модели рассуждений в принятии решений: приложение ДСМ-метода в системах интеллектуального управления и автоматизации научных исследований" // НТИ. Сер. 2. - 1996. - № 5-6. - С. 20 - 33.
21. Bristol, D.W., Wachsman, J.T., Greenwell, A. "Introduction: The NIEHS Predictive-Toxicology Evaluation Project" // Environmental Health Perspectives, 104 (Supplement 5): 1001-1010, 1996.
22. Bahler, D., Bristol, D.W. "The induction of rules for predicting chemical carcinogenesis in rodents" // Intelligent Systems for Molecular Biology, 29-37 / Eds. L. Hunter, D. Searls, and J. Shavlick, Menlo Park, CA: AAAI/MIT Press, 1993.
23. Quinlan, J.R. C4.5 Programs for Machine Learning, Morgan Kaufmann, 1993.
24. Sebag, M., Rouveirol, C. "Tractable induction and classification in first-order logic via stochastic matching" // Proceedings of the 15th International Joint Conference on Artificial Intelligence 888-893, Morgan Kaufmann, 1997.
25. Dehaspe, L., De Raedt, L. "Mining Association Rules in Multiple Relations" // Proceedings of the 7th International Workshop on Inductive Logic Programming, 1297:125 - 132, 1997.
26. De Raedt, L., Van Laer, W. "Inductive Constraint Logic" // Proceedings of the 5th Workshop on Algorithmic Learning Theory, Lecture Notes in Artificial Intelligence, Springer Verlag, 1995.
27. Dehaspe, L. "Maximum Entropy Modeling with Clausal Constraints" // Proceedings of the 7th International Workshop on Inductive Logic Programming, 1297:109-124, 1997.
28. Blinova, V.G., Dobrynin, D.A., Finn, V.K., Kuznetsov, S.O., Pankratova, E.S. "Toxicology Analysis by Means of the JSM-method" // Proceedings of PTC Workshop at the 5th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2001), 2001.
29. Финн В. К. «Правдоподобные рассуждения в интеллектуальных системах типа ДСМ» // Итоги науки и техники. Сер. Информатика. - М.: ВИНИТИ, 1991 - Вып. 15
30. Blinova, V., Dobrynin, D.A. "Languages for Representing Chemical Compounds for Intelligent Systems of Chemical Design" // Automated Documentation and Mathematical Linguistics, 3, 2000.
31. Blockeel, H., De Raedt, L. "Top-Down Induction of First-Order Logical Decision Trees" // Artificial Intelligence, 101(1-2): 285 - 297, 1998.
32. Pfahringer, B. "(The Futility of) Trying to Predict Carcinogenicity of Chemical Compounds" // Proceedings of PTC Workshop at the 5th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2001), 2001.
33. Gonzalez, J. A., Holder, L. B., Cook, D. J. "Application of Graph-Based Concept Learning to the Predictive Toxicology Domain" // Proceedings of PTC Workshop at the 5th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2001), 2001.
34. Lavrac, N., Keravnou, E., Zupan B. "Intelligent Data Analysis in Medicine" // Encyclopedia of Computer Science and Technology 42:113-157 / Eds. A. Kent et al., Dekker, New York, 2000.
35. Aha, D.W. "Case-Based Learning Algorithms" // Proceedings of Case-Based Reasoning Workshop, 147 - 158 / Ed. Ray Bareiss, Morgan Kaufmann, 1991
36. Kuznetsov, S., Obiedkov, S. Comparing performance of algorithms for generating concept lattices. Journal of Experimental and Theoretical Artificial Intelligence, 14 (2-3): pp. 189 - 216, 2002.
37. Аншаков О. М., Скворцов Д. П., Финн В. К. "Логические средства экспертных систем типа ДСМ" // Семиотика и информатика. - 1986 - Вып. 28. - С. 65 - 101.
38. Финн В. К. "Правдоподобные выводы и проблемы автоматического порождения теорий из базы фактов" // Интенсиональные логики и логическая структура теорий: Тезисы докладов IV советско-финского коллоквиума по логике, Телави, 1985. - С. 108 - 114.
39. М. В. Базилевский. Метод молекулярных орбит и реакционная способность органических молекул. - М.: Химия, 1969
40. Кузнецов С. О. ДСМ-метод как система автоматического обучения // Итоги науки и техники. Сер. Информатика. - М.: ВИНИТИ, 1991 - Вып. 15
41. Flesher J.W., Horn J., Lehner A.F. Molecular modeling of carcinogenic potential in polycyclic hydrocarbons // J. Molec. Struct. (Theochem) - 1996. - V.362. - P.29-49.
42. Объедков С.А. "Алгоритмы и методы теории решеток и их применение в машинном обучении" // Автореферат диссертации на соискание учёной степени кандидата технических наук, Москва, 2003
Размещено на Allbest.ru
...Подобные документы
Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.
курсовая работа [706,3 K], добавлен 07.08.2013Применение методов многомерного анализа для визуализации взаимосвязей web и социальных сетей в социологических исследованиях. Системы интеллектуального поиска данных Nigma.ru, Wolfram Alpha и Quintura. Социологическая информация и эмпирические данные.
презентация [2,6 M], добавлен 09.10.2013Исследование характеристик и функциональных возможностей системы управления базами данных Microsoft Office Access. Определение основных классов объектов. Разработка базы данных "Делопроизводство". Создание таблиц, форм, запросов, отчетов и схем данных.
реферат [1,3 M], добавлен 05.12.2014Анализ предметной области, касающийся вопросов учёта и анализа музейных экспонатов, работы музея. Анализ информационных потребностей пользователя. Разработка семантической модели данных. Реализация информационной системы. Создание таблиц и схемы данных.
курсовая работа [3,1 M], добавлен 21.02.2014Разработка подсистем анализа веб-сайта с помощью Microsoft Access и Olap-технологий. Теоретические аспекты разработки подсистемы анализа данных в информационной системе музыкального портала. Olap-технологии в подсистеме анализа объекта исследования.
курсовая работа [864,8 K], добавлен 06.11.2009Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.
контрольная работа [2,0 M], добавлен 13.06.2014Создание web-сайта для сбора статистических данных, прогнозирования возможностей системы общего образования и анализа демографического состояния региона в динамике. Проектирование базы данных, разработка компонентов, алгоритмов и программного обеспечения.
дипломная работа [3,1 M], добавлен 15.04.2013Разработка программного обеспечения для анализа полученных из хранилища данных. Система SAS Enterprise Miner и система Weka. Расчёт капитальных затрат на создание ПМК для анализа полученных из хранилища данных с использованием библиотеки XELOPES.
дипломная работа [1,4 M], добавлен 07.06.2012Метод вероятностно-алгебраического моделирования. Примеры определения вероятностных характеристик функционально-сложной системы в символьном виде. Получение и добавление данных с сервера "Всемирной организации здравоохранения". Структура базы данных.
курсовая работа [353,4 K], добавлен 22.06.2014Создание автоматизированной системы для упрощения работы с данными, расчётами и отчётами, анализа и хранения поступающих в лабораторию хроматографических исследований данных. Функциональные требования к системе. Проектирование программного обеспечения.
курсовая работа [1,9 M], добавлен 23.01.2013Понятие, виды и структура интеллектуальных поисковых систем. Российская интеллектуальная поисковая система Нигма: интерфейс и главные особенности. Математическая и химическая система Нигма. Понятие кластеризации как интеллектуального анализа данных.
презентация [291,0 K], добавлен 21.08.2011Определение доменов для схем отношений. Уточнение типов данных для атрибутов. Реализация ссылочной целостности. Описание разработанного программного обеспечения. Исследование операционных характеристик ИСС. Описание базы данных контрольного примера.
курсовая работа [395,9 K], добавлен 01.09.2010Интеллектуальный анализ данных как метод поддержки принятия решений, основанный на анализе зависимостей между данными, его роль, цели и условия применения. Сущность основных задач интеллектуального анализа: классификации, регрессии, прогнозирования.
контрольная работа [25,8 K], добавлен 08.08.2013Основы теории классификаторов. Идентификация, четкая и нечеткая классификация. Обучающие и тестовые последовательности наборов данных. Популярные метрики (меры) оценки расстояния между образами. Дискриминантный анализ. Деревья решений. Логический вывод.
лекция [596,5 K], добавлен 28.12.2013Освоение методов манипуляции параметрами SVG изображений при помощи JavaScript и возможности по анимации в современных браузерах. Интерфейс и структура модуля визуализации данных. Определение аномальных данных и их определение, реализованные типы.
курсовая работа [1,7 M], добавлен 20.05.2014Разработка и описание программы анализа параметров и характеристик реализации случайного процесса: оценка статистических характеристик и плотности распределения реализации, корреляционных и спектральных характеристик реализации случайного процесса.
курсовая работа [708,8 K], добавлен 25.12.2008Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.
реферат [22,5 K], добавлен 05.02.2011Изучение существующих методов и программного обеспечения для извлечения числовых данных из графической информации. Программное обеспечение "graphtrace", его структура и методы обработки данных. Использование этой системы для данных различного типа.
дипломная работа [3,9 M], добавлен 06.03.2013Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Анализ характеристик объекта компьютеризации. Разработка структур данных, алгоритмов и программного обеспечения системы управления базой данных. Особенности синтеза структур данных. Разработка алгоритмов системы и оценка результатов тестирования.
курсовая работа [37,0 K], добавлен 07.12.2010