Интеллектуальная система типа ДСМ для анализа клинических данных в онкологии

Проблема прогнозирования продолжительности жизни больных меланомой. Описание применение ДСМ-системы для новой задачи – прогнозирования продолжительности жизни и оценки маркера S-100 для больных меланомой. Анализ условий применения диагностического метода.

Рубрика Медицина
Вид статья
Язык русский
Дата добавления 18.01.2018
Размер файла 23,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА ТИПА ДСМ ДЛЯ АНАЛИЗА КЛИНИЧЕСКИХ ДАННЫХ В ОНКОЛОГИИ

Д.А. Добрынин (dobr@ viniti.ru)

Всероссийский Институт Научной и

Технической Информации РАН, Москва

И.Н. Михайлова (inmih@nm.ru)

Всероссийский Онкологический Центр им.

Н.Н. Блохина РАМН, Москва

Е.С. Панкратова (pankr@ viniti.ru)

В.К. Финн (finn@ viniti.ru)

Всероссийский Институт Научной и

Технической Информации РАН, Москва

В работе описываются применение ДСМ-системы для новой задачи - прогнозирования продолжительности жизни и оценки маркера S-100 для больных меланомой.

Введение

В секторе интеллектуальных систем ВИНИТИ создана интеллектуальная система типа ДСМ Название в честь английского мыслителя Джона Стюарта Милля. (ИнтС ДСМ) [Арский, 2008], основанная на ДСМ-методе автоматического порождения гипотез.

Существующая Инт ДСМ включает в себя:

Инт ДСМ = Решатель задач + Информационная среда (база данных и база знаний) + Интеллектуальный интерфейс (диалог + представление результатов + обучение работе с системой).

Решатель ИнтДСМ основан на ДСМ-методе автоматического порождения гипотез ([Арский, 2008], [Финн, 2004]), реализующий автоматизированные правдоподобные рассуждения. Разрабатываемые правдоподобные рассуждения образуют формализованную эвристику извлечения зависимостей причинно-следственного типа из баз структурированных фактов. Извлечение знаний типа «причина-следствие» основано на принципе: «сходство фактов порождает сходство эффектов и их повторяемость» (этот принцип отличен от вероятностного подхода к анализу данных: «повторяемость эффектов определяет сходство фактов»). Гипотезы о (±)-причинах, извлекаемых из БФ, порождаются посредством специально созданной процедуры индукции, порождающей сходство объектов - источник или причину наличия (отсутствия) изучаемого эффекта. Предсказание этого эффекта осуществляется посредством аналогии, использующей гипотезы о (±)-причинах, содержащихся в базе знаний и порожденных индукцией. И, наконец, ДСМ-рассуждение завершается абдуктивной процедурой - объяснением начального состояния БФ, которое или является достаточным основанием для принятия гипотез, или является средством расширения БФ для итерации ДСМ-рассуждения, если существуют необъясненные факты из БФ.

Условия применимости

меланома жизнь продолжительность

Перечислим условия применимости ДСМ-метода:

1. возможность структурирования данных и формального определения сходства фактов (из базы фактов (БФ));

2. наличие положительных и отрицательных примеров (±)-примеров в БФ;

3. наличие в БФ неявно заданных зависимостей причинно-следственного типа ((±)-причины изучаемых эффектов).

Особенности ДСМ-метода

Главной особенностью метода является то, что ДСМ-метод, будучи нестатистическим методом анализа данных, в состоянии учитывать индивидуальные особенности изучаемых объектов исследования, если их структура представлена информативно так, что используемые параметры достаточны для выявления сходства - генератора эффекта (то есть причины изучаемого явления).

Второй важной особенностью ДСМ-метода является его способность порождать полезные гипотезы на малых массивах данных благодаря выявленному сходству объектов, характеризуемых существенными параметрами.

Третья особенность ДСМ-метода анализа данных состоит в том, что он работает с открытыми массивами данных (а не с замкнутыми таблицами!), указывая на необходимость расширения базы фактов, если таковая возникает (это осуществляется посредством абдуктивного объяснения базы фактов).

Области применения ИнтС ДСМ

ИнтС ДСМ применяется для прогнозирования свойств структурированных объектов в БФ с неполной информацией для задач фармакологии, социологии, прогнозирования химической канцерогенности, токсичности, прогнозирования путей метаболизма ([Финн и др., 2006a], [Финн и др., 2006b]). ДСМ-метод может быть распространен и на другие задачи, которые удовлетворяют условиям его применимости.

Применение в медицине

Предлагаемая интеллектуальная система типа ДСМ является инструментом поддержки медицинских исследований со сложно структурированными данными и множеством фактов, необозримых без использования компьютерных технологий. Следует отметить, что анализ данных средствами ДСМ - рассуждений является новым средством формализованного качественного анализа данных в интеллектуальных системах.

Ранее ИнтС ДСМ применялись для решения следующих задач [Финн и др., 2006c]:

1) прогнозирования высокопатогенных типов вируса папилломы человека (ВПЧ) по цитологическим результатам исследования мазков (Кафедра клинической и лабораторной диагностики Российской Медицинской Академии последипломного образования). Защищена кандидатская диссертация Цидаевой И.Г.

2) диагностики двух заболеваний глаз: дегенеративного ретиношизиса и наследственных витреоретинальных дистрофий (Лаборатория клинической физиологии зрения МНИИ глазных болезней им. Гельмгольца).

3) диагностики системной красной волчанки (Отделение нефрологии Городской клинической больницы им. Боткина). Защищена кандидатская диссертация Захаровой Е.В.

Новая область применения

Сотрудниками Российского Онкологического Центра им. Н.Н. Блохина РАМН была поставлена следующая задача: для больных с диагнозом «меланома» прогнозировать общую продолжительность жизни на основании анализа клинических и лабораторных данных.

В настоящее время разработана архитектура и создан прототип ИнтС типа ДСМ для решения новой задачи в области медицины, а также экспериментальная версия интеллектуальной ДСМ системы (ИнтС ДСМ) для анализа клинических данных больных меланомой.

Постановка задачи

Задачей системы является прогнозирование продолжительности жизни больных меланомой в зависимости от экспрессии протеина S100 (широко изучаемого биохимического маркера прогрессирования меланомы кожи).

Прогноз у больных локализованными формами меланомы кожи сильно зависит от исходной стадии заболевания (TNM) и многих других факторов, значение которых остается малоизученным. Задачей системы является необходимость оценить прогностическое значение уровня S100.

Нам был поставлен вопрос: «Существует ли зависимость между продолжительностью жизни и значением S100?» Возможно переформулировать этот вопрос: «Существуют ли причины прогнозирования продолжительности жизни, отличные от причин прогнозирования значения S100?»

Создание БД

Первым этапом совместной работы была разработка подсистемы представления знаний и создание БД - одной из составных частей ИнтДСМ для больных с диагнозом «меланома». В настоящее время создана оболочка БД. Атрибутами этой БД являются сведения о больных, представленные в медицинских картах. Эти атрибуты объединены в следующие группы: антропометрические и расчетные показатели; предрасполагающие факторы среды обитания; наследственные, врожденные и приобретенные предрасполагающие факторы; история настоящего заболевания; описание настоящего состояния и текущих проявлений заболевания; лабораторные и гистологические показатели на момент осмотра; проведенное лечение; сопутствующие заболевания; клинический диагноз; проведенное ранее лечение (химиотерапия иммунотерапия, химиоиммунотерапия, лучевая терапия на область опухоли; общее количество циклов химиотерапии, которое проведено на настоящий момент, наибольшая длительность положительного объективного ответа (стабилизации, частичного или полного ответа на фоне лечения или без него (всего 80 атрибутов).

В настоящее время в БД занесены данные о 38 больных БД заполнена сотрудником РОНЦ Самойленко И.. Для каждого больного определено значение протеина S100 и общая продолжительность жизни.

Настройка на предметную область

Для возможности применения ИНТ ДСМ к новой задаче необходима настройка [Финн и др. 2006c], включающая в себя следующее:

1. разработку языка представления данных;

2. определение понятия «объект» и «свойство» в терминологии ДСМ-метода;

3. определение аксиом предметной области;

4. задание операции сходства;

5. задание отношения вложения.

(1) Разработка языка представления данных

Для описания результатов обследований больного был разработан язык представления имеющихся медицинских данных. Были составлены признаки описания больного, по которым необходимо составить прогноз заболевания.

Анализируя эти многочисленные медицинские факты, можно выделить несколько различных типов данных.

1) В кортеже длины «n» (где n - количество элементов списка признаков) указываются присутствующие качественные признаки, вместо отсутствующих признаков ставится (пустой элемент):

El(1) =<At1,…,Ati,…Atn>

2)Указывается один из возможных качественных признаков

3)Указывается норма признака или интервал отклонения признака от нормы с указанием направления отклонения

El(4) = <At,dir,k>,

где dir{,N,} , N - норма признака, - отклонение от нормы в сторону уменьшения, - отклонение от нормы в сторону уменьшения, а k{1,2,3,4,5}

4)Указываются конкретные признаки иерархической структуры

Таким образом, был создан язык представления онкологических данных, разработаны программы ввода медицинской информации. Полученная система является автоматизированной историей болезни пациентов онкологического профиля. Форма ввода медицинских данных очень удобна для врача. Можно просматривать БЗ, добавлять информацию о заболевании «меланома» по мере ее получения, включать результаты различных клинических, электроретинографических и психофизических исследований. При необходимости возможно наполнение БД новыми терминами и понятиями.

(2) Определение понятия «объект» и «свойство» в терминологии ДСМ-метода

Объект, соответствующий истории болезни конкретного больного, представляет собой кортеж из 80 элемента:

Оi = <El1,…., El80>

Каждый элемент этого кортежа соответствует конкретному признаку. В соответствие с языком представления данных каждый элемент объекта принадлежит одному из 4-х типов или же является комбинацией каких-либо типов.

Так как задачей системы в данной работе является прогнозирование исходов заболевания «меланома», то в терминологии ДСМ-метода эти исходы являются свойствами.

(3) Аксиомы предметной области

В данной задаче, т.к. изучается влияние S100, то этот признак помещается в группу необходимых признаков.

(4,5) Операция сходства и отношение вложения определяются поэлементно и зависят от типа данных.

Настройка на эксперимент

Настройка системы на эксперимент включает в себя следующее.

1. Выбор стратегии: простой метод сходства, метод сходства с запретом на контрпримеры (невложение полученных методом сходства гипотез в исходные примеры противоположного знака) отдельно для (+) и (-) примеров.

2. Подбор нужного количества родителей (наименьшее количество примеров, образующих гипотезу).

3. Настройка фильтра конъюнктивных признаков Список атрибутов, которые должны присутствовать в порожденной гипотезе. Гипотезы, где нет всех атрибутов из списка, отбрасываются.. В данной задаче это присутствие S100.

4. Настройка фильтра дизъюнктивных признаков Список атрибутов, из которого хотя бы один должен присутствовать в порожденной гипотезе. Гипотезы, где нет ни одного атрибута из списка, отбрасываются..

Возможный критерий оценки подбора параметров и стратегии эксперимента - применение процедуры «доопределение по одному»: последовательно каждому объекту выборки присваивается значение «», производится доопределение этого объекта средствами ДСМ-системы с выбранными параметрами и сравнивается доопределенное значение с существующим. Подсчитывается общее количество правильных и неправильных доопределений.

Выбираются параметры пп.1-4, при которых при применении процедуры «доопределение по одному» будет наилучший результат, то есть наибольшее количество правильных доопределений и наименьшее количество неправильных.

Эти параметры логично использовать для доопределений вновь занесенных в базу фактов пациентов, у которых необходимо поставить диагноз.

Результаты

С использованием системы было проведено несколько компьютерных экспериментов. Опишем один из них. «Объектом» в терминологии ДСМ-метода является описание больного, занесенное в БД. В данном конкретном эксперименте «свойством» является продолжительность жизни больного: больше пяти лет (положительный пример в терминологии ДСМ-метода) и меньше пяти лет (отрицательный пример). Имеем 12 положительных примеров и 26 отрицательных. Для проверки работы системы применялась стратегия «доопределение по-одному»: последовательно каждый пример из БД считался неизвестным и доопределялся средствами ДСМ-системы. Результат работы системы: общее количество правильных доопределений - 21, и неправильных - 2 доопределения.

В результате проведенных экспериментов были получены результаты для прогностической оценки значения уровня S100. Выявлено следующее: все порожденные положительные гипотезы-причины (продолжительность жизни больше 5 лет), помимо прочих атрибутов, включают значение S100 меньше 0,120 нг/мл (лабораторная норма РОНЦ им. Н.Н.Блохина), а все отрицательные (продолжительность жизни меньше 5 лет) - значение S100 больше 0,120 нг/мл. [Михайлова и др., 2010].

Для решения вопроса «Существуют ли причины прогнозирования продолжительности жизни, отличные от причин прогнозирования значения S100?» была создана процедура, реализующая усеченный метод остатков Д.С.Милля.

1.Проведен компьютерный эксперимент по прогнозированию продолжительности жизни более 5 лет (свойство в терминологии ДСМ-метода) с конъюнктивным фильтром S100 менее 0,12нг/мл. Порождено некоторое множество A гипотез-причин продолжительности жизни более 5лет, причем каждая гипотеза содержала значение S100.

2.Проведен компьютерный эксперимент по прогнозированию продолжительности жизни более 5 лет. Конъюнктивный фильтр не включался. Порождено некоторое множество гипотез причин B продолжительности жизни более 5лет.

3.Проведен компьютерный эксперимент, где свойством в терминологии ДСМ-метода является значение S100 менее 0,120 нг/мл. Порождено некоторое множество гипотез-причин C значения S100 менее 0,120нг/мл.

4.Из множества A вычиталось множество B (то есть из каждой гипотезы множества A вычитались последовательно гипотезы множества B).Таким образом, было получено множество B') Программа вычитания гипотез была создана студенткой 5-го курса отделения интеллектуальных систем Анной Волковой.. Эксперимент показал, что B B' = , что подтверждает существование некоторой зависимости между S100 и продолжительностью жизни.

ИС ДСМ относятся к evidence based medicine

Предлагаемая интеллектуальная система является инструментом поддержки медицинских исследований со сложно структурированными данными и множеством фактов, необозримых без использования компьютерных технологий. Результаты применения ДСМ-метода, как средства анализа онкологических данных, демонстрируют полезность этого метода, являющегося новым инструментом доказательной медицины.

Распространенный сейчас термин evidence based medicine, к сожалению, переведен как «доказательная медицина», а не как «медицина, основанная на очевидных фактах». Методы, относящиеся к evidence based medicine, основаны на установленных фактах и используют эти факты как аргументы при принятии решений в медицине, в частности, для диагностики.

Но смысл этого термина состоит в том, что решения, принимаемые врачами, должны быть аргументированными (но не доказанными - ведь авторы говорят о вероятных прогнозах, то есть о гипотезах!), что означает, что принимаемые решения используют аргументы, извлеченные из клинических данных.

В самом деле, ()-гипотезы о причинах эффектов, обнаруженные в базе фактов посредством выявления сходства, являются аргументами или контраргументами в пользу порождаемой интеллектуальной системой гипотезы о наличии или отсутствии изучаемого эффекта.

Сказанное является аргументом в пользу утверждения о том, что ДСМ-метод является полезным аппаратом доказательной медицины [Финн и др., 2006b].

Таким образом, подтверждается возможность использования ДСМ-метода автоматического порождения гипотез в области медицинской диагностики, где недостаток формальных знаний может быть “скомпенсирован” богатым фактическим материалом. В некоторых областях медицины, находящихся на стадии феноменологического описания и накопления данных, развитые логико-математические методы восстанавливают причинно-следственные зависимости, служат для пополнения знаний на основе имеющихся фактических данных и являются средством поддержки интеллектуальных возможностей экспертов-медиков.

Благодарности. Работа выполнена при поддержке программы фундаментальных исследований Президиума РАН «Математическое моделирование и интеллектуальные системы» на 2010 год.

Список литературы

[Арский, 2008] Арский Ю.М., Финн В.К. Принципы конструирования интеллектуальных систем. // Информационные технологии и вычислительные системы. 2008. №4.

[Михайлова и др., 2010] Михайлова И.Н., Панкратова Е.С., Добрынин Д.А., Самойленко И.В., Решетникова В.В., Шелепова В.М., Демидов Л.В., Барышников А.Ю., Финн В.К. О применении интеллектуальной компьютерной системы для анализа клинических данных больных меланомой. // Российский Биотерапевтический Журнал. 2010. №2.

[Финн, 2004] Финн В.К. Об интеллектуальном анализе данных // Новости искусственного интеллекта. 2004. №3.

[Финн и др., 2006a] Финн В.К., Блинова, В.Г, Панкратова Е.С., Фабрикантова Е.Ф. Интеллектуальные системы для анализа медицинских данных. Часть 1. // Врач и информационные технологии. 2006. №5.

[Финн и др., 2006b] Финн В.К., Блинова В.Г., Панкратова Е.С., Фабрикантова Е.Ф. Интеллектуальные системы для анализа медицинских данных. Часть 2. //Врач и информационные технологии. 2006. №6.

[Финн и др., 2006c] Финн В.К., Блинова В.Г., Панкратова Е.С., Фабрикантова Е.Ф. Интеллектуальные системы для анализа медицинских данных. Часть 3. //Врач и информационные технологии. 2007. №1.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.