Интеллектуальный анализ медицинских данных с использованием процедуры словарного шкалирования
Усовершенствованная процедура словарного шкалирования в применении к массиву описаний клинических признаков наследственных заболеваний соединительной ткани. Результаты, полученные при решении задачи интеллектуального анализа экспериментальных данных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 18.01.2018 |
Размер файла | 139,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ФГУ «МНИИ педиатрии и детской хирургии Росмедтехнологий
Интеллектуальный анализ медицинских данных с использованием процедуры словарного шкалирования
А.В. Воинов (avoinov@gmail.com)
Н.С. Демикова (ndemikova@pedklin.ru)
Б.А. Кобринский (bakob@pedklin.ru)
Москва
Аннотация
В работе описывается усовершенствованная процедура словарного шкалирования в применении к массиву описаний клинических признаков наследственных заболеваний соединительной ткани. Представлены результаты, полученные при решении задачи интеллектуального анализа экспериментальных данных.
Введение
Проблема классификации больных с генетически детерминированными болезнями остается актуальной до настоящего времени. Во многом это определяется, с одной стороны, гетерогенностью (неоднородностью) этой патологии, с другой стороны, разнообразием (полиморфизмом) клинических проявлений.
С учетом крайней редкости многих наследственных заболеваний и отсутствием для многих из них специфических диагностических критериев, существенным для идентификации таких болезней являются знания и опыт врачей. Но их передача невозможна без объективизации не всегда четких субъективных представлений, характеризующихся индивидуальностью восприятия при одновременном формировании у врача некоего образа болезни.
Исходя из этого, представляют интерес методы интеллектуального анализа данных. Первый опыт применения экспериментальной процедуры словарного шкалирования в интеллектуальном анализе данных о наследственных заболеваниях описан в работе [Воинов и др., 2006]. В настоящей работе применена усовершенствованная процедура словарного шкалирования.
1. Характеристика экспертного описания заболеваний
Для формализованного описания исследуемых заболеваний использовался многоуровневый классификатор MeSH [http://www.nlm.nih.gov/mesh/meshhome.html], с помощью которого вводились клинические признаки, характеризующие заболевание. Исходя из возможностей данного классификатора, мы вынуждены были использовать в описаниях отдельных заболеваний признаки разного уровня.
Отличие от работы, представленной в 2006 году, заключается в исключении из всех описаний данных о специфических генных и биохимических изменениях, поскольку была поставлена задача долабораторной классификации болезней.
Всего описано 41 заболевание, объединение которых определяется нарушениями со стороны соединительной ткани (лизосомные болезни накопления, дизостозы и др.). В данной работе используемый массив данных был подвергнут определенной трансформации. В отношении некоторых наблюдений, «выпадающих» при визуальном анализе кластеров, то есть не соответствующих принятой классификации, была осуществлена частичная переаннотация терминами MeSH, что позволило уточнить описания.
Принципиально важно использование в данной работе, в отличие от предыдущей, шкалы весовых характеристик симптомов в описаниях заболеваний, так как признаки встречаются в различных возрастных группах с изменяющейся частотой ввиду прогрессирования заболевания и, соответственно, изменения клинической картины болезней. Веса были установлены в совместном обсуждении двумя экспертами для каждого из 4-х возрастных периодов: при рождении, на 1-м году жизни ребенка, с 1 года до 3 лет, старше 3 лет. Шкала построена с учетом частоты проявления признаков: 5 - всегда (в 90 - 100%), 4 - часто (в 70 - 80%), 3 - в половине случаев (в 50%), 2 - редко (в 20 - 30%), 1 - очень редко (в 10%), 0 - отсутствие патологического признака.
2. Словарное шкалирование формализованных описаний болезней
Описания наследственных болезней соединительной ткани, представлены в виде таблиц данных, пригодных для обработки в системе Медис, обеспечивающей инструментальную поддержку исследований в области извлечения знаний, психосемантики, построения предметных онтологий [Воинов, 1996].
Необходимо отметить, что аннотированию с помощью классификатора MeSH подвергалось формальное описание болезни, сформированное на основании данных литературы и личного опыта экспертов. Оно включало дефрагментированное представление внешнего вида (образа) больного, сложившегося в виде цельного понятия в сознании специалистов, дополненное признаками, характеризующими поражение костной, нервной систем, зрения, слуха и внутренних органов у детей.
В таблице 1 приведены аннотации трех из анализируемых нами заболеваний, как они сформировались в процессе коррекции к 2010 г.
Табл. 1. Пример аннотаций
MPS6 (P104) |
Acrocephalo-polysyndactyly type II Carpenter (А1) |
Acrocephalo-syndactyly type Chotzen (А2) |
|
Craniofacial abnormalities |
Craniosynostoses |
Craniosynostoses |
|
Corneal Opacity |
Syndactyly |
Hypertelorism |
|
Hypertelorism |
Polydactyly |
Prognathism |
|
Hearing Loss |
Nose Deformities, Acquired |
Strabismus |
|
Contracture |
Hip Joint |
Syndactyly |
|
Short stature |
Mental Retardation |
||
Hernia |
Obesity |
||
Kyphosis |
Pulmonary Valve Stenosis |
||
Limb Deformities |
|||
Otitis |
|||
Rhinitis |
|||
Aortic Valve Stenosis |
|||
Hepatomegaly |
|||
Splenomegaly |
|||
Intervertebral Disk |
Для удобства восприятия, в таблице серым фоном выделены те терминальные признаки, которые совпадают при данных заболеваниях. Кроме того, представленные заболевания сближает и наличие признаков, происходящих из единого более высокого узла классификатора MeSH, например, Aortic Valve Stenosis и Pulmonary Valve Stenosis относятся к порокам сердца, а Craniofacial abnormalities, Syndactyly и Polydactyly входят в группу мышечно-скелетных аномалий (выделены жирным курсивом). Пример построения классификатора MeSH можно видеть на нижеприведенном фрагменте (рис.1).
Рис.1. Фрагмент классификатора MeSH
3. Математические методы анализа выборок документов
Мера близости между аннотациями в словарном шкалировании, как и в предыдущем исследовании, основана на мере близости между отдельными терминами словаря. В данной работе был реализован тот же подход, описанный в [Resnik, 1999; Воинов и др., 2004; Воинов, 2005]. В нем используется два источника информации: таксономическая близость терминов в словаре MeSH и их информационное содержание, определяемое по частоте вхождения терминов в некоторую «обучающую» выборку данных.
Как выяснилось в процессе интерпретации результатов, полученных в предыдущем исследовании, выбор информационного содержания в качестве основы для меры близости между терминами, ведет к гипертрофированному вкладу в меру близости между документами таких терминов, которые относительно редко встречаются в обучающей выборке. В результате, взаимное расположение документов в пространстве многомерного шкалирования не всегда соответствует «экспертному», т.е. полученному в результате классического субъективного шкалирования.
В настоящем исследовании мера близости между терминами, имеющими как минимум один общий родительский термин в таксономии MeSH, определяется следующим образом:
где ni -число вхождений i-го термина в обучающую выборку, nj - число вхождений j-го термина в обучающую выборку, pij - число вхождений «минимального» родительского термина для i и j в ту же выборку. Под минимальным понимается такой термин, который входит в обучающую выборку наименьшее число раз. Частоты терминов выше некоторого порогового значения отсекаются. Тем самым достигается та же цель, что и в случае метрики, основанной на информационном содержании: исключить влияние терминов, представленных в подавляющем большинстве документов обучающей выборки и, соответственно, неинформативных для задачи исследования. При этом также исключается и чрезмерное влияние редко упоминаемых терминов. В качестве порогового значения рассматривались 50%, 25%, 10%. В настоящей работе приведены результаты, выполненные с первым из них, т.е. 50%.
Преимущество новой меры близости между терминами по сравнению со старой проверялось с помощью так называемых «положительных контрольных выборок», на которых эффект количественной обработки должен соответствовать ожидаемому. В нашем случае роль положительного контроля играла заданная априори таксономия наследственных болезней, выбранных для исследования. Этот вопрос рассматривается подробно в следующем разделе.
словарный шкалирование интеллектуальный описание
4. Собственное семантическое пространство описаний группы болезней
Описанная выше выборка из 41 пациента, аннотированная терминами MeSH, была подвергнута анализу методом многомерного шкалирования в пространстве трех измерений. Полученная конфигурация точек была обработана методом кластерного анализа, критерий группировки которого отвечает требованию максимальной сбалансированности кластерного дерева.
Результат анализа (для одного из выделяемых 5 - 6 кластеров) приведен на рис.1, из анализа которого можно сделать вывод, что в один кластер попали близкие по клиническим проявлениям и патогенетическим механизмам заболевания. Таблица 2 показывает попавшие в один кластер объекты при различных весовых категориях. Серым фоном выделены заболевания, попадающие при разных категориях весов в один и тот же первый кластер, т.е. совпадающие по клиническим проявлениям в различные возрастные периоды.
В целом, при рассмотрении рис.2 и табл. 2, можно видеть близость различных заболеваний в семантическом пространстве в первом кластере при различных категориях весов, т.е. при различном возрасте больных.
Рис. 2. Визуальное представление первого кластера в псевдотрехмерном пространстве
Табл. 2. Кластер 1
Категория весов 1 |
Категория весов 2 |
Категория весов 3 |
Категория весов 4 |
|
Р105 (ML1) |
Р105 (ML1) |
|||
P118 (MPS3) |
P118 (MPS3) |
P118 (MPS3) |
P118 (MPS3) |
|
Cong. lypodystrophy |
Cong. lypodystrophy |
Cong. lypodystrophy |
||
P101 (MPS1H) |
P101 (MPS1H) |
P101 (MPS1H) |
P101 (MPS1H) |
|
P106 (ML3) |
P106 (ML3) |
P106 (ML3) |
P106 (ML3) |
|
P107 (ML2) |
P107 (ML2) |
P107 (ML2) |
P107 (ML2) |
|
P103 (MPS4) |
P103 (MPS4) |
P103 (MPS4) |
P103 (MPS4) |
|
P101 (MPS1S) |
P101 MPS1S) |
P101 MPS1S) |
P101 MPS1S) |
|
P109 (BWS) |
P109 (BWS) |
P109 (BWS) |
||
P117 (Pycnodys) |
||||
Cutis laxa |
Cutis laxa |
|||
P102 (ML3) |
||||
P104 (MPS6) |
||||
P111 (Kniest) |
||||
Frontometaphys. Dys. |
Полученные результаты позволяют сделать следующие основные выводы:
·--некоторые группировки диагнозов устойчиво воспроизводились для всех возрастных групп;
·--визуализация показала устойчивость кластеров, обнаруженных при рассмотрении трехмерного пространства;
·--нетрадиционное, в отдельных случаях, объединение описаний по диагнозам в кластеры объяснялось близостью соответствующих терминов в таксономии;
·--в содержательном (медицинском) плане практическое значение работы заключается в том, что аналогично тому, как по отдельным признакам врач выдвигает первичную диагностическую гипотезу, интеллектуальная система может включать в кластер описания, обладающие аналогичными признаками.
Полученные результаты указывают на целесообразность в дальнейшем написания программы, которая для нового пациента по аннотации автоматически будет показывать близкие объекты и подсказывать диагноз.
5. Потенциальные возможности применения словарного шкалирования
В предшествующей работе авторы [Воинов и др., 2006] обращали внимание на то, что предлагаемый подход позволяет выявлять предположительно новые нозологические формы или варианты заболеваний в случаях формирования отдельных кластеров или попадания исследуемых объектов не в «свой» кластер. Также предшествующее исследование показало, что интеллектуальный анализ данных, основанный на первично визуальной оценке различных кластеров, позволяет оценить вклад отдельных симптомов в дифференциальную диагностику заболеваний.
Результаты настоящей работы развивают спектр этих возможностей, а для случая «чистого» словарного шкалирования, когда аннотации объектов создаются авторами исследования, приведен практический сценарий поэтапного (с учетом предшествовавших результатов) уточнения экспериментальной методики.
Заключение
Проведенный интеллектуальный анализ данных продемонстрировал эффективность усовершенствованной процедуры словарного шкалирования в применении к массиву описаний клинических проявлений наследственных заболеваний. При этом была показана возможность классификации и идентификации клинически сложных болезней наследственной природы при введении дополнительного условия, заключающегося в использовании весовых категорий, отвечающих нечетким представлениям, и системы повозрастной группировки признаков.
Показано влияние различных признаков на расположение объектов и их близость к образцам, характерным для отдельных заболеваний.
Подтверждено высказанное ранее предположение о чрезвычайной чувствительности метода словарного шкалирования к выбору тезауруса терминов, используемых для аннотации, как по широте охвата, так и по семантическому содержанию конкретных терминов.
Анализ данных без предварительной обучающей выборки (unsupervised learning) оставляет возможность «открытия» новых свойств изучаемых объектов, формирования гипотез о закономерностях их взаимодействия.
Список литературы
[Воинов, 1996] Воинов А.В. Интеллектуальная система анализа данных МЕДИС // Пятая национальная конференция с международным участием «Искусственный интеллект-96». Т.3. - Казань, 1996.
[Воинов и др., 2004] Воинов А.В., Кобринский Б.А. Иерархия локально-непротиворечивых полей знаний как модель образного мышления и интуиции эксперта в мягких предметных областях // Девятая национальная конференция по искусственному интеллекту с международным участием: Тр. конф. Т.2. - М.: Физматлит, 2004.
[Воинов, 2005] Воинов А.В. Интеграция онтологий и извлечение холистических знаний // Новости искусственного интеллекта. 2005. № 2.
[Воинов и др., 2006] Воинов А.В., Демикова Н.С., Кобринский Б.А. Словарное шкалирование в медицинской информатике: инженерия знаний и интеллектуальный анализ данных // Десятая национальная конференция по искусственному интеллекту с международным участием: Тр. конф. Т.1. - М.: Физматлит, 2006.
[Resnik, 1999] Resnik P. Semantic similarity in a taxonomy: An information-based measure and its application to problems of ambiguity in natural language // J. of Artif. Intell. Res. 1999. 11 (1).
Размещено на Allbest.ru
...Подобные документы
Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.
курсовая работа [706,3 K], добавлен 07.08.2013Интеллектуальный анализ данных как метод поддержки принятия решений, основанный на анализе зависимостей между данными, его роль, цели и условия применения. Сущность основных задач интеллектуального анализа: классификации, регрессии, прогнозирования.
контрольная работа [25,8 K], добавлен 08.08.2013Математическая статистика. Выборочная функция распределения. Использование инструментов Мастера функций и Пакета анализа Excel при статистической обработке данных. Анализ однородности выборки. Корреляционный, регрессионный анализ экспериментальных данных.
курсовая работа [473,6 K], добавлен 22.12.2015Выделение сущностей для создания структуры хранения данных. Выбор технологии ввода данных таксационных описаний. Разработка программного обеспечения для ввода данных таксационных описаний и его реализация. Безопасность геоинформационной системы.
дипломная работа [2,1 M], добавлен 20.07.2012Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Интерполяция данных с использованием значений функции, заданной множеством точек, для предсказания значения функции между ними. Результаты линейной интерполяции в графическом виде. Кубическая сплайн-интерполяция. Функции для поиска вторых производных.
презентация [2,7 M], добавлен 29.09.2013OLAP как автоматизированные технологии сложного (многомерного) анализа данных, Data mining - извлечение данных, интеллектуальный анализ. Виды запросов к многомерной базе данных, их содержание и анализ полученных результатов. Схема "звезда", "снежинка".
презентация [132,1 K], добавлен 19.08.2013Реляционная модель базы данных в текстовом виде. Код, с помощью которого были созданы и заполнены таблицы. Разработка схемы базы данных справочника селекционера. Создание запросов, их основные виды. Процедуры на выбор данных, добавление и удаление.
методичка [1,1 M], добавлен 20.05.2014Анализ данных с помощью скользящего среднего из пакета и построение тренда на графике. Выполнение задания и расчетов с построенным графиком. Оценка адекватности экспериментальных данных модели для проведения экономического статистического анализа.
контрольная работа [7,7 M], добавлен 27.04.2010Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.
лабораторная работа [998,9 K], добавлен 25.11.2014Информация и ее свойства. Автоматизированные системы обработки инструментальных и лабораторных данных, включающие рабочие места врачей. Интеллектуальные системы поддержки принятия врачебных решений. Телекоммуникационная инфраструктура в медицине.
реферат [40,4 K], добавлен 12.10.2014Разработка приложения для шифрования данных с помощью алгоритма DES5: процесс шифрования, расшифрования, получение ключей. Спецификация программы, процедуры и функции; описание интерфейса пользователя. Реализация задачи в среде программирования DELPHI.
курсовая работа [812,6 K], добавлен 27.03.2012Понятие медицинской информационной системы, принципы и подходы ее формированию и организации. Структура хранения данных, их ввод и предоставление. Программные способы формализации и проверки. Реализация и концептуальная модель базы данных, ее интерфейс.
дипломная работа [1,0 M], добавлен 19.06.2015Разработка база данных в виде таблицы, включающей поля: ФИО, адрес, номер телефона, наименование услуги, сумма оплаты, срок выполнения. Процедуры программы и соответствующие им пункты в меню. Описание исходных данных, интерфейса и работы каждой процедуры.
курсовая работа [997,3 K], добавлен 08.06.2014Определение понятия CASE-технологий. Использование комплексного инструментария ER/Studio для создания логической и физической модели данных, генерирования баз данных на платформе СУБД Access. Процедура добавления атрибутов и сущностей, создания связей.
контрольная работа [2,2 M], добавлен 21.12.2011Разработка базы данных с помощью Borland С++ Builder6, которая отражает в удобной форме учет автотранспортных средств. Проектирование инфологической, даталогической и физической моделей данных. Функции и процедуры (операции) системы, листинг программы.
курсовая работа [133,1 K], добавлен 10.11.2011Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.
реферат [1,3 M], добавлен 25.03.2013Понятие, виды и структура интеллектуальных поисковых систем. Российская интеллектуальная поисковая система Нигма: интерфейс и главные особенности. Математическая и химическая система Нигма. Понятие кластеризации как интеллектуального анализа данных.
презентация [291,0 K], добавлен 21.08.2011Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.
контрольная работа [2,0 M], добавлен 13.06.2014Создание базы данных, содержащей сведения о напильниках. Вывод данных об инструменте, номер насечки которых равен 2.Использование переменных типа "запись" при работе с базами данных. Решение задачи с использованием Microsoft Excel. Алгоритм программы.
курсовая работа [33,3 K], добавлен 08.03.2013