Словарное шкалирование в медицинской информатике: инженерия знаний и интеллектуальный анализ данных
Анализ процедуры словарного шкалирования в применении к массиву описаний клинических проявлений наследственных заболеваний. Обоснование валидности применяемой методологии. Анализ результатов ее применения в задачах интеллектуального поиска информации.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 19.01.2018 |
Размер файла | 98,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
СЛОВАРНОЕ ШКАЛИРОВАНИЕ В МЕДИЦИНСКОЙ ИНФОРМАТИКЕ: ИНЖЕНЕРИЯ ЗНАНИЙ И ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ
А.В. Воинов, Н.С. Демикова, Б.А. Кобринский
В работе описывается экспериментальная процедура словарного шкалирования в применении к массиву описаний клинических проявлений наследственных заболеваний. Обосновывается валидность применяемой методологии. Описываются результаты ее применения в задачах интеллектуального поиска информации и анализа данных.
шкалирование массив наследственный интеллектуальный поиск
Введение
В работе [Воинов и др., 2004] описаны начальные шаги цикла исследований, основным предметом которого являются модели образных представлений и интуиции экспертов-медиков, а целью - построение комплекса взаимосвязанных формализованных моделей мира этих экспертов. Одним из технологических средств решения этих задач является так называемое «словарное шкалирование» [Воинов, 2005].
В настоящей работе описывается экспериментальная процедура словарного шкалирования в применении к массиву описаний клинических проявлений наследственных заболеваний, имеющих отношение к вопросам диагностики. В процессе последовательного проведения экспериментальных работ в этом направлении к настоящему моменту накоплено определенное количество промежуточных результатов, которые, хотя и не решают поставленные выше задачи, тем не менее представляют самостоятельный научный и практический интерес как для области теории и приложений искусственного интеллекта, так и для предметной медицинской области.
Целью первого этапа исследований является проверка валидности методологии, т.е. проверка того, что в простых и понятных случаях она приводит к таким же простым, понятным результатам, согласующимся с уже имеющимися знаниями о предмете.
1. Инструментальный комплекс МЕДИС 4.0
Технологически настоящее исследование опирается на инструментальный комплекс МЕДИС 4.0 (предыдущие версии системы описаны в [Воинов, 1996; Воинов, 1998]). Это - многоуровневая (multi-tier) программная система, реализующая широкий спектр операций над произвольными документами. Документом может быть, например, резюме статьи из внешней электронной библиотеки, описание истории болезни пациента или иного реального случая применения экспертизы, а также любое словесное описание или даже графическое представление объекта предметной области. Документ может иметь аннотацию - ассоциированный с ним список терминов из иерархического словаря MeSH [Netlson et al., 2004]. Наличие аннотаций позволяет построить метрику на множестве документов и, на ее основе, - семантическое пространство документов. Два основных способа пополнения базы данных МЕДИС - это (1) ввод содержимого документов вручную или «импортирование» из локальной базы данных (например, из массива историй болезни какой-либо конкретной клиники) и (2) извлечение резюме журнальных статей из библиотеки Pubmed по заранее сформированному запросу.
Одной из центральных компонент пользовательского интерфейса системы Медис 4.0 является окно аннотирования документа терминами словаря MeSH. Для ускорения поиска наиболее адекватного (очередного) термина для аннотации рассматриваемого документа предусмотрены: (а) поиск по текстовому образцу, (б) поиск в таксономии терминов, (в) поиск в списке «ближайших семантических соседей» выбранного термина. Этим обеспечивается подбор термина, который или в точности совпадает с тем, который хотел бы ввести исследователь в соответствии со своими представлениями, или максимально близок к нему.
2. Словарное шкалирование историй болезни пациентов
Составлена выборка из 27 историй болезни пациентов с наследственными болезнями обмена веществ, представленных в виде «документов» системы Медис. Приведем аннотации трех из них (в сокращении).
Табл. 1.
MPS6 (P104) |
Acrocephalo-polysyndactyly type II Carpenter (А1) |
Acrocephalo-syndactyly type Chotzen (А2) |
|
Arylsulfatases |
Corneal Opacity |
Craniosynostoses |
|
Corneal Opacity |
Cryptorchidism |
Genes, Dominant |
|
Genes, Recessive |
Ductus Arteriosus, Patent |
Hypertelorism |
|
Hearing Loss |
Ear Deformities, Acquired |
Prognathism |
|
Hearing Loss, Bilateral |
Genes, Recessive |
Strabismus |
|
Hearing Loss, Sensorineural |
Hearing Loss, Conductive |
Syndactyly |
|
Hernia |
Hearing Loss, Sensorineural |
||
Kyphosis |
Hernia, Umbilical |
||
Limb Deformities, Congenital |
Hip Joint |
||
Otitis |
Hydronephrosis |
||
Rhinitis |
Mental Retardation |
||
Syndactyly |
|||
Craniosynostoses |
Следует отметить, что аннотированию подвергалось формальное описание болезни на основании документации, составляющей ее «историю», представляющее собой дефрагментированное образное представление внешнего вида пациента, в том виде, как оно сложилось в сознании специалистов, дополненное признаками, характеризующими поражение нервной системы, зрения, слуха и внутренних органов у детей.
Этот массив документов был дополнен выборкой резюме статей из электронной библиотеки Pubmed, отвечающих запросу “musculoskeletal+diseases+children+mental+retardation”, включающему признаки, встречающиеся у значительного числа из 27 описанных специалистами больных. Многие из статей этой выборки посвящены описанию историй болезни пациентов, страдавших заболеваниями, включенными в настоящее исследование или близкими к ним.
3. Математические методы анализа выборок документов
В зависимости от того или иного определения меры близости между документами, пространство, в которое они погружены, будет иметь более или менее сложную структуру. В том случае, например, когда близость между документами оценивается субъективно («очень похоже», «довольно похоже», «мало похоже», «непохоже» и т.д.), в пространстве документов может нарушаться не только неравенство треугольника, но даже и свойство симметричности отношения близости. В нашем случае мера близости аннотаций документов определяется как скалярное произведение векторов-«профилей» документов, что делает выбор плоского метрического евклидова пространства небольшого числа измерений адекватным для задач визуализации и интерпретации получаемых статистических решений.
Мера близости между аннотациями в словарном шкалировании основана на мере близости между отдельными терминами словаря. В системе Медис 4.0 реализован подход, описанный в работах [Resnik, 1999; Воинов и др., 2004; Воинов, 2005]. В нем используется два источника информации: таксономическая близость терминов в словаре MeSH и их информационное содержание, определяемое по частоте вхождения терминов в некоторую «обучающую» выборку документов. В настоящей версии системы Медис 4.0 использована выборка, составляющая около 250 000 статей из библиотеки Pubmed, посвященных детским болезням.
Коль скоро известны величины собственного информационного содержания - для каждого термина в отдельности, а также величины общего информационного содержания для каждой пары терминов, можно составить «профиль» документа по его аннотации. Скалярное произведение таких профилей принимается в качестве меры близости между документами. В силу транзитивных отношений между терминами в словаре скалярное произведение двух профилей документов может быть больше нуля даже в тех случаях, когда в них нет ни одного совпадающего термина.
Выбранная в настоящем исследовании мера близости чувствительна к абсолютной величине последнего. Это обстоятельство необходимо учитывать при интерпретации полученных результатов.
4. Собственное семантическое пространство 27 историй болезни
Результат многомерного шкалирования 27 историй болезни приведен на рис.1, где представлены кластеры документов, полученные методом иерархического кластерного анализа. Интуитивно ясно, что документы, принадлежащие некоторому компактному кластеру (например, «К1» на рис.1), относительно далеко отстоящему от других кластеров, должны иметь нечто общее, чем они отличаются от остальных документов. Это дифференцирующее общее составляет «смысл» или «интерпретацию» кластера. Выяснение этого общего может осуществляться чисто визуально. В нашем случае, благодаря наличию формальных аннотаций, интерпретацию кластеров можно начать со статистического анализа аннотаций. Например, можно выделить термины, которые значимо чаще встречаются в аннотациях данного кластера, чем во всех остальных аннотациях выборки. Такие термины будем называть «представительными». Для кластера К1 это - Myopia и Refractive Errors. Каждый из них встречается в 3-х из 4-х документов кластера К1 и относительно редко (8.7%) - в остальных 24 аннотациях.
Табл. 2.
Термин |
К1 |
К2-4 |
|
Myopia |
75.00% |
8.70% |
|
Refractive Errors |
75.00% |
8.70% |
|
Retinal Degeneration |
50.00% |
4.35% |
|
Seizures |
25.00% |
0.00% |
|
... |
25.00% |
0.00% |
Таким образом, несмотря на то, что алгоритм кластерного анализа относится к группе методов классификации без предварительного обучения, где, как принято говорить, «перемешиваются» различные признаки классифицируемых объектов, процедура построения (апостериорных) списков представительных терминов не только выделяет наиболее существенные классифицирующие признаки объектов, но и ведет к статистически обоснованной интерпретации кластеров.
Рис. 1. Семантическое пространство 27 пациентов в проекции на плоскость первых двух координатных осей, словарное шкалирование
Помимо представительных терминов, явно входящих в аннотацию, близость документов объясняется и косвенными семантическими связями между терминами. Например, близость пациентов MPS6 (P104) и Acrocephalopolysyndactyly type II Carpenter (А1) объясняется большим количеством совпадающих дополнительных (второстепенных) признаков в аннотации, что сглаживает различие по их «основным» признакам, характеризующим разные диагнозы (см. табл. 1).
Не исключено, что на последующих этапах исследования принятый алгоритм расчета семантической близости аннотаций может быть пересмотрен с учетом накопленного опыта обработки данных. В частности, перспективным представляется подход, развитый в работах А.М. Петровского и А.Н. Путинцева (см. [Путинцев, 1984] и цитируемые там литературные источники).
5. 27 историй болезни на фоне пространства 700 журнальных статей
Следующим шагом исследования стало построение семантического пространства по совмещенному массиву документов: 27 введенных историй болезни + 700 статей из библиотеки Pubmed (рис. 2). Алгоритм многомерного шкалирования ищет наилучшее соответствие конфигурации, в целом, исходным данным, поэтому неудивительно, что взаиморасположение 27 исходных объектов в пространстве изменилось. Распался кластер К1. В целом конфигурация описаний 27 пациентов оказалась «разобранной» по трем (из семи) компактным кластерам аннотаций статей.
Рис. 2. 27 пациентов на фоне массива литературы.
Также, как и в предыдущем случае, на основе статистического анализа строится список представительных терминов по каждому кластеру. В частности, для двух из трех кластеров, куда входят большинство из 27 пациентов, эти списки выглядят так:
· Chromosomes, Mutation, «Biochemical Phenomena, Metabolism, and Nutrition», Phenotype, Mental Disorders Diagnosed in Childhood, Chromosome Mapping, Genotype, «Chromosomes, Human, Pair 4», Enzymes, Transferases.
· Genes, Inheritance Patterns, «Genes, Recessive», «Genes, Dominant», Hernia, Hearing Loss, Ear Diseases, «Limb Deformities, Congenital», Prognathism, Maxillofacial Abnormalities, Mandibular Diseases, Tooth Abnormalities, Jaw Abnormalities, Hypertelorism, Craniofacial Dysostosis, Tooth Diseases, Dysostoses, Synostosis, Syndactyly, Strabismus, «Hernia, Umbilical», Exophthalmos, Nose Diseases, Micrognathism, Fetal Growth Retardation, Craniosynostoses.
Детальное рассмотрение этих списков, являющихся информативным для специалистов-медиков, выходит за пределы настоящей работы. Отметим лишь, что оба списка отражают специфику исходной выборки документов, в них доминируют, в разных проявлениях, собственно генетические и наследственные факторы. Конкретные их фенотипические проявления представлены во втором списке.
Помимо анализа полученных кластеров как целых, полезным оказалось также и рассмотрение отдельных статей, попавших в ближайшую пространственную окрестность к какому-либо из 27 рассматриваемых пациентов. Из этих статей была получена важная и нетривиальная информация, которую практически невозможно было бы найти простым контекстным поиском: в резюме этих статей, так как в этой базе далеко не всегда встречались текстуально интересующие специалистов ключевые слова.
6. Потенциальные возможности применения инструментального комплекса МЕДИС 4.0
Рассматриваемая в статье технология позволяет ставить и решать различные задачи.
Во-первых, выполнять (уточнять) классификацию заболеваний, при которой могут быть обнаружены предположительно новые нозологические формы заболеваний, т.е. объекты, находящиеся на значительном удалении от основных кластеров, соответствующих общепризнанной классификации. Это особенно актуально для врожденной и наследственной патологии, где ежегодно выделяются новые заболевания или подтипы уже известных нозологических единиц.
Во-вторых, осуществлять интеллектуальный анализ данных, основанный на первично визуальной оценке различных кластеров, что позволяет оценить вклад отдельных симптомов в дифференциальную диагностику заболеваний. Одновременно возможно сравнение клинических характеристик одних и тех же наследственных заболеваний, описанных в разных странах у больных, принадлежащих к разным этносам. Другим аспектом этого может быть анализ изменений классической клинической картины давно описанных болезней, на что указывают современные литературные источники.
В-третьих, диагностика неясных случаев по направленному поиску в рефератах (по признаку, представляющемуся врачу наиболее существенным, т.е. диагностически значимым, например, по признаку “Mental Retardation”, как это было сделано в настоящем исследовании) в PubMed можно получить информацию не только о часто встречающихся, но, главное, о редких заболеваниях, недостаточно известных практикующим врачам.
Заключение
Анализ наследственных заболеваний с применением методов многомерной классификации и распознавания образов [Кобринский и др., 1975; Кобринский и др., 1976a; Кобринский и др., 1976b] продемонстрировал вклад различных признаков и возможность дифференциальной диагностики и идентификации новых случаев на основе близости к известным образцам, характерным для конкретных классов заболеваний, в том числе с определенным типом наследования. Новые возможности анализа открывает изложенная выше технология.
В настоящей статье описаны первые результаты моделирования предметной области наследственных болезней методами словарного шкалирования. Из полученных результатов видно, что помимо основной цели исследования - построения и изучения формальных моделей экспертных знаний в исследуемой предметной области, методика позволяет решать и другие актуальные задачи поиска, обработки и представления информации при классификации и необходимости опознания неизвестных объектов. На основе полученных данных можно сделать предварительный вывод о целесообразности в дальнейшем учета диагностической значимости признаков путем придания им «весовых» коэффициентов, что будет способствовать повышению эффективности классифицирующей процедуры.
Важно, что оказывается возможным поиск информации в электронной библиотеке документов не на основе разрозненных «текстовых образцов», а на основе условно целостного «образа» искомого объекта, представленного его аннотацией, что позволяет формировать направление поиска в соответствии с потребностями исследователя (пользователя), а не авторов статей, определивших поле ключевых слов.
Список литературы
[Воинов, 1996] Воинов А.В. Интеллектуальная система анализа данных МЕДИС // Пятая национальная конференция с международным участием «Искусственный интеллект-96». Т.3. - Казань, 1996.
[Воинов, 1998] Воинов А.В. Моделирование интуитивных рассуждений эксперта методами психосемантики и вывода с неопределенностью // Новости искусственного интеллекта. 1998. №2.
[Воинов и др., 2004] Воинов А.В., Кобринский Б.А. Иерархия локально-непротиворечивых полей знаний как модель образного мышления и интуиции эксперта в мягких предметных областях // Девятая национальная конференция по искусственному интеллекту с международным участием: Тр. конф. Т.2. - М.: Физматлит, 2004.
[Воинов, 2005] Воинов А.В. Интеграция онтологий и извлечение холистических знаний. Новости искусственного интеллекта. 2005. № 2.
[Кобринский и др., 1975] Кобринский Б.А., Марасулов А.Ф. Использование метода распознавания образов (АСРО-I) при изучении наследственных систем-ных заболеваний скелета // Актуальные вопросы травматологии и ортопедии: Тр. ЦИТО. Вып.11. - М. 1975.
[Кобринский и др., 1976а] Кобринский Б.А., Никандрова Т.С. Применение метода главных компонент в изучении мукополисахаридозов // Медицинская генетика и наследственные болезни человека: Тр. 2-го МОЛГМИ. Т.74. - М., 1976.
[Кобринский и др., 1976б] Кобринский Б.А., Черемисина Е.Н. Применение алгоритма распознавания образов «Голотип» для анализа фенотипических проявлений заболевания при доминантном и рецессивном типах наследования // Материалы по математическому обеспечению и использованию ЭВМ в медико-биологических исследованиях. - Обнинск, 1976.
[Путинцев, 1984] Путинцев А.Н. Человеко-машиннные процедуры обработки и анализа слабоформализованной информации в задачах управления научными исследованиями. Дисс. … уч. степ. канд. тех. наук. - М., 1984.
[Cox et al., 2000] Cox T.F, Cox M.A.A. Multidimensional Scaling. - New York: Chapman & Hall, 2000.
[Nelson et al., 2004] Nelson S.J., Schopen, M., Savage A.G., Schulman J., Arluk N. The MeSH Translation Maintenance System: Structure, Interface Design, and Implementation / Fieschi M. et al., editors // Proc. of the 11th World Congress on Medical Informatics (2004 Sep 7-11; San Francisco, CA). Amsterdam: IOS Press, 2004.
[Resnik, 1999] Resnik P. Semantic similarity in a taxonomy: An information-based measure and its application to problems of ambiguity in natural language // J. of Artif. Intell. Res. 1999. V.11, N1.
Размещено на Allbest.ru
...Подобные документы
Интеллектуальный анализ данных как метод поддержки принятия решений, основанный на анализе зависимостей между данными, его роль, цели и условия применения. Сущность основных задач интеллектуального анализа: классификации, регрессии, прогнозирования.
контрольная работа [25,8 K], добавлен 08.08.2013Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.
курсовая работа [706,3 K], добавлен 07.08.2013Классификация методов анализа по группам. Сбор и хранение необходимой для принятия решений информации. Подготовка результатов оперативного и интеллектуального анализа для эффективного их восприятия потребителями и принятия на её основе адекватных решений.
контрольная работа [93,2 K], добавлен 15.02.2010Виды организации контроля знаний и умений учащегося. Формирование независимой и объективной информации о результатах учебного процесса для обучаемого и обучающего. Обоснование выбора программы тестирования знаний студентов младших курсов по информатике.
курсовая работа [488,8 K], добавлен 03.09.2016Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Анализ интеллектуально-информационных ресурсов как движущей силы современного общества. Стратегии получения знаний. Характеристика преимуществ статистических пакетов и нейронных сетей. Архитектура инструментария для интеллектуального анализа MineSet.
контрольная работа [35,6 K], добавлен 14.09.2010Выделение сущностей для создания структуры хранения данных. Выбор технологии ввода данных таксационных описаний. Разработка программного обеспечения для ввода данных таксационных описаний и его реализация. Безопасность геоинформационной системы.
дипломная работа [2,1 M], добавлен 20.07.2012База знаний - структурированная информация из области знаний для использования кибернетическим устройством (человеком). Классификация, структура, формат представления знаний, интеллектуальные системы поиска информации. Базы знаний на примере языка Пролог.
презентация [51,3 K], добавлен 17.10.2013Теоретические сведения об алгоритмах поиска подстроки в строке. Глобализация информации в сети Internet. Интеллектуальный поиск. Алгоритм последовательного (прямого) поиска, Рабина и их применение. Анализ алгоритмов. Реализация программного кода.
курсовая работа [230,8 K], добавлен 12.02.2009Применение методов многомерного анализа для визуализации взаимосвязей web и социальных сетей в социологических исследованиях. Системы интеллектуального поиска данных Nigma.ru, Wolfram Alpha и Quintura. Социологическая информация и эмпирические данные.
презентация [2,6 M], добавлен 09.10.2013OLAP как автоматизированные технологии сложного (многомерного) анализа данных, Data mining - извлечение данных, интеллектуальный анализ. Виды запросов к многомерной базе данных, их содержание и анализ полученных результатов. Схема "звезда", "снежинка".
презентация [132,1 K], добавлен 19.08.2013Анализ и виды интеллектуальных агентов в системе дистанционного обучения и их характеристики. Построение интеллектуального агента глоссария на платформе Jadex с помощью XML формата. Среда разработки и описание интеллектуального агента с помощью BDI.
курсовая работа [113,6 K], добавлен 10.02.2011Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.
дипломная работа [942,1 K], добавлен 19.05.2011Особенности проведения поиска по реквизитам документа, контексту, специализированным классификаторам (тематический), интеллектуальный. Средства и инструменты поиска в компьютерных справочно-правовых системах "гарант", "консультантплюс", "кодекс".
реферат [25,9 K], добавлен 19.03.2016Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.
контрольная работа [26,1 K], добавлен 13.01.2013Cущность ЕГЭ как основной формы контроля уровня знаний за курс средней школы. Анализ раскрытия технологии программирования в учебниках по информатике 10-11 классов. Разработка уроков по подготовке школьников к решению заданий по программированию.
дипломная работа [988,7 K], добавлен 18.07.2014Обоснование необходимости применения вычислительной техники и телекоммуникационного оборудования для решения задач. Проектирование информационной системы отдела снабжения. Физическая модель данных с указанием типов основных атрибутов, нормализация таблиц.
дипломная работа [1,6 M], добавлен 19.02.2017Обзор архитектуры СУБД SQL Server. Описание и анализ областей применения средств бизнес-аналитики, таких как многомерный анализ данных и интеллектуальный анализ данных. Обзор языковых средств, методов и экспериментальное применение полученных сведений.
дипломная работа [2,2 M], добавлен 09.07.2014Объектно-ориентированное программирование как новый подход к созданию приложений. Разработка Windows-приложения для поиска информации в хэш-таблице. Анализ использования хеширования для поиска данных и линейного зондирования для разрешения конфликтов.
курсовая работа [915,5 K], добавлен 06.03.2016Анализ предметной области с использованием моделей методологии ARIS и разработка ER-диаграммы. Описание входной и выходной информации для проектирования реляционной базы данных. Разработка управляющих запросов и связей между ними с помощью языка SQL.
курсовая работа [975,2 K], добавлен 30.01.2014