Компьютерный анализ медицинских данных с использованием методов математической статистики
Характеристика основных программных средств математической статистики. Особенности медицинских данных. Основные характеристики распределения. Подготовка, предварительный анализ информации и выбор методов обработки, используемых в клинической практике.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 06.10.2014 |
Размер файла | 26,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Компьютерный анализ медицинских данных с использованием методов математической статистики
Программные средства математической статистики
Математическая статистика -- универсальный инструмент для анализа любых данных, в том числе экспериментальных клинических и биомедицинских. Но выбираемый метод должен отвечать поставленной цели и быть адекватным по отношению к характеру анализируемых данных. Современный врач-исследователь должен осмысленно выбирать методы, применяемые к конкретной клинической (экспериментальной) задаче, и критически оценивать, а также содержательно интерпретировать полученные результаты.
Статистический анализ можно проводить вручную, если данных немного, используемые методы просты, а расчеты вследствие этого не трудоемки. Но в подавляющем большинстве случаев необходимо пользоваться специальными программными пакетами для ПК, которые так и называются -- статистическими.
С конца 1970-х гг. в России самым популярным для использования в медицине и биологии был пакет BMDP. Обработка данных проводилась на так называемых «больших» машинах серии ЕС с предварительной набивкой данных на перфокарты.
В первой половине 1990-х гг. лидерство захватили статистические пакеты для персональных ЭВМ, работающие под управлением ОС MS DOS. Одним из математически мощных, не накладывающих практически никаких ограничений на объем обрабатываемой информации, был пакет SAS. Часть исследователей работала с пакетом BMDP для ПК, но безусловным лидером по количеству пользователей был пакет Statgraphics, обладающий широкими возможностями, достаточно простой в эксплуатации, но имеющий ограничения по числу анализируемых переменных.
В настоящее время наибольшее распространение в России получили статистические пакеты, работающие под Windows: Statistica, SPSS, SAS
Для того чтобы успешно применять математическую статистику, ее нужно знать хотя бы в том объеме, который реально необходим для осознанных действий. Кроме того, нужно уметь использовать статистический пакет. С практической точки зрения лучше ориентироваться на один и тот же пакет в течение ряда лет. Переход от пакета к пакету ведет к необходимости переучивания, пусть и в относительно небольшом объеме.
Особенности медицинских данных
Первым шагом, предваряющим собственно статистический анализ, является исследование типа данных, основными из которых являются количественные и качественные.
Качественные данные подразделяются на порядковые, или ранговые (например, тяжесть проявлений заболевания), и классификационные, или номинальные (например, перенесенные заболевания, классы ксенобиотиков). Процедура ранжирования данных, т.е. упорядочивания их в соответствии с числовыми градациями, проводится в возрастающем, либо в нисходящем ряду значений. Число градаций, характеризующих данные, не должно быть излишне большим, так как в этом случае увеличивается элемент субъективности.
При обработке данных часто приходится переводить качественные данные в количественные. В свою очередь количественные данные могут подвергаться квантованию в зависимости от поставленной задачи (для выделения интервалов, соответствующих различным состояниям, например температура нормальная, субфебрильная, высокая и др.), и тогда они становятся аналогичны качественным шкалированным.
В случае пропусков информации (отсутствующие данные) нельзя использовать так называемое «обнуление», т.е. приписывать кодовое число нуль, так как это в большинстве случаев совпадает с кодированием нормы по данному признаку. Также методически неверно использовать среднее по классу, особенно при малых выборках, так как классы далеко не всегда являются однородными (гомогенными). Предпочтительно исключать такие наблюдения или кодировать пропущенные данные специальным знаком (числом) при условии, что «обход» таких «значений» предусмотрен в программе, т.е. обработка проводится только по известным значениям данных.
В клинической и экспериментальной медицинской практике исследователь реже употребляет слово «данные», но чаще -- «параметры» или «переменные», ставя между этими понятиями знак равенства.
Нужно отличать понятие «переменная» от понятия «признак»: температура тела -- параметр (переменная), температура тела более 37° С -- признак (человек нездоров). Переменные бывают непрерывными и дискретными, в том числе, дихотомическими (принимающими одно из двух значений, например «здоров -- болен»).
В клинической практике переменные часто описываются шкалами. Как было отмечено ранее, шкалы бывают качественными (сознание ясное, спутанное и т.д.), классификационными (цвет кожных покровов -- розовые, синюшные, желтушные, характер хрипов в легких -- сухие, влажные мелкопузырчатые, крупнопузырчатые и т.д.) и количественные, в том числе интервальные, порядковые, балльные.
Интервальные переменные (например, ударный объем, мл: 50 -- 80, менее 50, более 80) полезно использовать для решения конкретной клинической задачи. Их также можно переводить в порядковые (на основе построения шкал), но лучше (при наличии возможности и если это не противоречит смыслу решаемой задачи) использовать собственно количественные значения переменной.
Балльные шкалы получают по-разному: после предварительной математической обработки, на основе чисто клинической оценки параметра, комбинированным способом.
Как правило, затруднения в отнесении параметров к количественным или качественным не возникают. Гораздо сложнее при переводе качественных данных в количественные, когда реально нужно определить «вес» градаций качественного параметра. Не всегда правомерен вариант «в лоб»: 1, 2, 3, 4 и т.д. (но не более девяти значений, исходя из известного закона в области психологии, определяющего пределы способности человека к переработке информации). Часто для получения реальных «весов» параметров необходимо проводить дополнительное исследование.
Особым типом данных являются даты. Бывает, что по смыслу работы с ними приходится производить действия (например, определять, сколько времени прошло между соседними исследованиями), поэтому нужно следить, чтобы они записывались в определенном формате.
Важен вопрос о точности измерения и представления медицинских параметров. Понятно, что точность исходных данных определяется точностью метода и(или) прибора, с помощью которых осуществляется измерение.
В описательной статистике при работе с медицинскими данными необходимо поступать следующим образом: с одной стороны, не допускать потерь информации исходно -- использовать данные с той точностью, которая имеет место при измерении; с другой -- при представлении результатов статистической обработки данных не приводить избыточной информации -- в большинстве случаев достаточно той точности представления информации, что и в исходных данных, либо использования одного Дополнительного разряда. Обычно при предъявлении числовых данных указываются два знака после запятой. Исключением являются случаи представления констант и весовых коэффициентов функций, полученных в результате многомерного анализа (например, дискриминантного); тогда в результирующих таблицах обязательно должны приводиться все цифры после запятой.
Следует остановиться на еще одной особенности медицинских данных.
В математической статистике выводы основаны на допущении: то, что верно на случайной выборке, верно и для генеральной совокупности, из которой она получена.
Генеральная совокупность -- это набор данных, описывающих нечто всеобъемлющее, например все дети, живущие на планете Земля, вся совокупность пациентов, которые могли бы получать определенный препарат и т. п.
Выборка -- часть генеральной совокупности, описывающая ее с той или иной долей погрешности.
Часто сформировать истинно случайную выборку из генеральной совокупности не представляется возможным в силу того, что для выполнения требований репрезентативности объекты исследования (пациенты) должны проживать на разных континентах земного шара. Проведение таких исследований в настоящее время возможно, однако в силу существенных физиологических различий между людьми, живущими в разных уголках планеты, может быть потерян клинический смысл исследования. Это утверждение справедливо для достаточно широко распространенных в настоящее время международных мультицентровых исследований, посвященных, например, метаболическому синдрому, в которых принимают участие крупные отечественные центры и институты. В таких случаях выборка должна быть репрезентативна к исследуемой популяции (населению РФ или определенных, этнически сходных, регионов России).
Современная технология статистического анализа данных включает:
1) постановку задачи и планирование исследования: составление детального плана сбора исходных данных, определение характера выборки;
2) подготовку данных;
3) выбор методов обработки данных;
4) проведение анализа данных;
5) интерпретацию и представление результатов анализа.
Суть современной технологии обработки медицинских данных с помощью методов математической статистики и их последующей интерпретации кратко изложена в подразд. 3.3 -- 3.5.
Подготовка, предварительный анализ информации и выбор методов обработки данных
Рассмотрим пример из клинической дисциплины.
Постановка задач и планирование исследования. Предпочтительным вариантом является строгий подход, когда до проведения исследования есть полная ясность, для чего предпринимается работа, сколько и каких исследований будет осуществлено, какие методы и почему будут применяться для обработки полученного материала. Это позволяет оптимизировать усилия исследователя и затраты ресурсов.
Данный вариант исследования не исключает использования (целиком или частично) ретроспективных данных (собранных ранее и имеющихся в медицинской документации). В принципе нужно помнить, что в этом случае исследователя подстерегает еще одна «ловушка», связанная с различным толкованием симптомов. Это же может иметь место и при проспективном исследовании с участием группы врачей, особенно придерживающихся различных научных школ. Поэтому помимо списка признаков, характеризующих заболевание, необходимо иметь их стандартные описания. Это в значительной степени позволит избежать различий в толковании одних и тех же симптомов. Однако в клинической практике до сих пор достаточно часто сначала получают данные, а уже затем клиницист решает, каким образом на имеющемся материале получить некий обобщающий результат.
Подготовка данных. Данные для статистического анализа принято готовить в виде таблицы (таблиц). Современные статистические пакеты работают с данными наиболее распространенных в настоящее время форматов, в том числе .dbf и .xls.
В строки таблицы заносятся объекты исследования (например, пациенты), а в столбцы -- параметры. Если конкретное значение параметра отсутствует, клетку таблицы оставляют пустой. Если значение параметра равно нулю, оно все равно обязательно вносится. Если пациенты обследовались в динамике, т.е. по каждому больному есть несколько «срезов» параметров, обычно вводится дополнительный столбец, однозначно определяющий для конкретного больного (и соответственно -- значений параметров) время исследования (например, номер хирургических суток). Таблицы данных включают в себя столбец (столбцы) группирующих параметров (например, номер группы, исход заболевания, если именно по нему будут исследоваться пациенты, и т.д.).
После занесения данных в таблицу необходимо их проверить: просматривают значения параметров, выявляют те из них, которые сильно отличаются от остальных. Это могут быть как реальные «выпадающие» значения, так и ошибки ввода, которые необходимо устранить.
Перенос (импорт) данных в статистический пакет затруднений не вызывает. Для этого пользуются стандартными возможностями буфера обмена ОС Windows. Можно также применять специальные модули статистических пакетов, например модуль «Управление данными» (Data management) пакета Statistica.
Современные статистические пакеты дают возможность управлять данными: часто при решении задач возникает необходимость объединения или разделения файлов (содержащих таблицы) по условию.
Выбор методов анализа и их реализация. Для грамотного выбора метода обработки данных необходимо знать характер распределения используемых переменных, поэтому предварительный анализ данных начинают с определения характера их распределения.
Распределение элементов выборки по значениям параметра -- это совокупность частот встречаемости интервалов его значений в данной выборке. К наиболее часто встречающимся видам распределений относятся: колоколообразное (нормальное, гауссово), полимодальное (чаще -- бимодальное), равномерное и др.
К основным характеристикам распределения относятся:
среднее арифметическое (М) -- при непрерывных числовых типах параметров; все значения по выборке сложить и поделить на их количество;
медиана -- значение параметра, делящее распределение параметра пополам; выборка значений параметра ранжируется (по возрастанию или убыванию); если число значений нечетно, то медиана -- это центральное значение, если число значений четно, то медиана -- это среднее арифметическое двух центральных значений;
квантили (центили) -- весь диапазон значений разбивается на 10 интервалов. Границы между интервалами -- квантили, от 10%-го до 90%-го квантиля укладываются 80 % значений;
квартили -- весь диапазон разбивается на четыре интервала: 50%-й квартиль -- медиана, кроме нее часто указываются 25%-й и 75%-й квартили, т.е. описывается 50 % наиболее «близких к центру» значений;
мода -- значение параметра с наибольшей частотой встречаемости на выборке;
асимметрия -- характеристика несимметричности распределения элементов выборки относительно среднего арифметического. В случае симметричного распределения значение асимметрии равно нулю.
В медицинских публикациях часто встречается запись значений в виде М± т, где т -- стандартная ошибка среднего (standard error of mean). Это допустимо делать в случае нормально распределенного параметра, а к величине т нужно относиться с определенной долей скептицизма. Правда, при увеличении выборки распределение параметра достаточно часто стремится к квазинормальному, и тогда использование т в какой-то мере оправдано. Лучше указывать само выборочное стандартное отклонение (среднее квадратичное отклонение -- standard deviation -- s), которое характеризует ширину нормального распределения. Основанием для такого подхода является то, что s не уменьшается при увеличении числа наблюдений п; в диапазон М ± s укладывается около 70% значений нормального распределения параметра.
Параметрические методы. Для решения многих клинико-научных задач необходимо формулировать статистические гипотезы. Среди них можно назвать анализ соответствия распределения значений параметра определенному закону, сравнение групп по характеристикам распределения параметров и др.
Статистическая гипотеза -- это формально строго сформулированное предположение.
Нулевой (Н0) называют гипотезу, которую исследователь предполагает отклонить (например, об отсутствии различий между группами).
Альтернативная гипотеза (Н1) противоположна нулевой (например, о наличии различий между группами).
Уровень статистической значимости (а) -- это пороговое значение для ошибочного отклонения верной нулевой гипотезы (ошибки первого рода). В медицине принято выбирать а = 0,05 или а = 0,01.
Ошибка второго рода -- это ошибочное принятие ложной нулевой гипотезы.
В настоящее время в публикациях принято указывать реальное значение р (вероятность ошибки первого рода). Если значение р меньше 0,05, говорят о наличии статистически значимых отличий между выборками параметра.
Статистически значимые различия следует отличать от клинически значимых. Встречаются результаты, значимые статистически, но не значимые с клинической точки зрения, бывает и наоборот. Клинически значимые, но статистически незначимые результаты обычно получаются на малых выборках, а при увеличении выборок они, как правило, подтверждаются и статистически.
Чем распределения отличаются с практической точки зрения? Тем, что наиболее распространенные методы параметрической статистики (например, t-критерий Стьюдента) можно применять только для нормально распределенных величин (колоколообразных распределений). Неправомочное использование t-критерия Стьюдента -- самая часто встречающаяся ошибка статистической обработки данных клинических исследований, приводящая к ошибочным выводам.
Непараметрические методы. В клинической медицине и при обработке данных медико-биологических экспериментов в большинстве случаев необходимо пользоваться непараметрическими методами статистического анализа. Они являются менее мощными, чем параметрические, но применимы для любых видов распределений.
Анализ характера распределения данных (его еще называют проверкой на нормальность распределения) осуществляется по каждому параметру. Для проверки на нормальность используют как визуализирующие методы (метод построения гистограмм), так и статистические (например, тест Колмогорова--Смирнова, критерий Шапиро--Уилкса). Для того чтобы уверенно судить о соответствии распределения параметра нормальному закону, необходимо, чтобы выборка была достаточно многочисленной (не менее 50 значений).
Кроме разделения по уже описанному важнейшему статистическому подходу (параметрические, непараметрические) методы статистического анализа данных принято классифицировать несколькими способами:
1) по количеству одновременно анализируемых параметров (одномерные, двухмерные, многомерные или многофакторные);
2) имеющимся исходно предположениям о характере распределений выборок (односторонние тесты -- при наличии предположения о смещении распределения
математический статистика клинический распределение
Таблица 1 - Методы математической статистики, используемые в клинической практике
Область применения |
Метод |
||
параметрический |
непараметрический |
||
Описательная статистика |
Вычисление средних значений, среднеквадратичных отклонений и др. |
Вычисление медиан, квартилей, межквартильного размаха, квантилей и др. |
|
Сравнение двух независимых групп по одному параметру |
t-Критерий Стьюдента для независимых выборок |
Критерий Манна-Уитни, критерий х2, точный критерий Фишера и др. |
|
Сравнение двух зависимых групп по одному параметру |
t-Критерий Стьюдента для зависимых выборок |
Критерий Вилкоксона, критерий знаков и др. |
|
Анализ взаимосвязи двух параметров |
Корреляционный анализ по Пирсону |
Корреляционный анализ по Спирмену, Кендаллу и др. |
|
Одновременный анализ трех и более параметров |
Регрессионный анализ, дискриминантный анализ, кластерный анализ, дисперсионный анализ |
Логистический регрессионный анализ, анализ конъюнкций и др. |
параметра в одной из групп в определенную сторону относительно другой; двусторонние -- при отсутствии такого предположения);
3) зависимости/независимости выборок.
Независимыми считаются, например, группы пациентов, которые были рандомизированы (случайным образом отобраны). Зависимыми являются, например, данные одной и той же группы больных до и после лечения.
Таким образом, для решения задач используют ряд параметрических и непараметрических статистических методов (табл. 1).
Приведенный обзор методов, используемых при решении разных задач, демонстрирует только подход к анализу данных и не претендует на полноту. Более подробно об этих методах можно узнать в соответствующей учебной литературе.
3.4. Использование методов математической статистики для анализа данных
В учебном издании по медицинской информатике было бы излишне приводить подробные описания методов математической статистики, тем более что в последние годы вышло достаточно большое количество специальной литературы, рассчитанной на практикующего врача, с описанием как наиболее часто использующихся методов, так и работы со статистическими пакетами. Поэтому здесь мы ограничимся лишь краткими сведениями, полезными для клинициста, но не достаточными для приобретения реальных знаний по математической статистике.
Сравнение двух независимых групп по одному параметру. t-Критерий Стьюдента для независимых выборок (групп) является наиболее популярным методом решения этой задачи, суть которой сводится к проверке того, различаются ли средние значения параметра в сравниваемых группах. Критерий корректно использовать только при условии нормального распределения параметров в каждой группе и равенства дисперсий распределений параметров в группах.
Суть применения t-критерия Стьюдента для независимых выборок заключается в проверке нулевой гипотезы о том, что средние значения параметра в группах не различаются. Если нулевая гипотеза по результатам анализа отклоняется (р < 0,05), принимается альтернативная гипотеза о том, что средние значения параметров в группах различаются.
Правомочно использовать t-критерий Стьюдента для независимых выборок лишь при достаточно большом объеме выборок, что в клинической медицине бывает редко.
Кроме «классического» t-критерия Стьюдента существует его модификация, не требующая равенства дисперсий распределений параметров в группах.
В настоящее время, когда врачи становятся более сведущими в математической статистике, критерий Манна-Уитни (Мапп -- Whitney U-test) используют почти так же часто, как t-критерий. Его применяют для сравнения выборок по количественным параметрам в случаях, когда хотя бы одна из сопоставляемых выборок имеет распределение, отличное от нормального, или если характер распределения параметра неизвестен (проверка на нормальность не проводилась).
Суть метода заключается в проверке нулевой гипотезы о равенстве средних рангов в группах, т.е. до проверки гипотезы осуществляется ранжирование значений параметра в каждой группе. Если нулевая гипотеза отклоняется, принимается альтернативная гипотеза о том, что между рангами групп есть различия.
Сравнение двух зависимых групп по одному параметру. t-Критерий Стьюдента для зависимых выборок, так же как и t-критерий Стьюдента для независимых выборок, можно применять только при условии нормального распределения параметров в каждой группе и равенства дисперсий распределений параметров в группах. В большинстве случаев на реальных клинических данных эти условия не выполняются, поэтому применение метода не правомочно.
Критерий Вилкоксона (Wilcoxon matched pairs test) -- один из самых мощных непараметрических критериев. Его используют для парного сравнения выборок количественных (или качественных порядковых) параметров в тех случаях, когда хотя бы в одной из анализируемых выборок распределение величин параметра не является нормальным.
При применении критерия Вилкоксона проверяется нулевая гипотеза об отсутствии различий выборок. Если она отклоняется (р < 0,05), принимается альтернативная -- об их наличии.
Анализ взаимосвязи двух параметров. Общепринятым способом выявления взаимосвязи между переменными является расчет корреляции.
Следует подчеркнуть, что обнаружение корреляции между двумя переменными не свидетельствует о существовании причинной связи между ними, а лишь указывает на возможность таковой (или фактора, определяющего изменение обеих переменных).
Обычно при использовании методов корреляции перед исследователем возникает вопрос о тесноте связи (степени сопряженности) переменных. Если каждому заданному значению одной переменной соответствуют близкие друг к другу, тесно расположенные около средней величины значения другой переменной, то связь является более тесной; если эти значения сильно варьируют, связь менее тесная. Таким образом, мера корреляции (значение коэффициента корреляции г) указывает, насколько тесно связаны между собой параметры. Чем больше коэффициент корреляции, тем с большей степенью уверенности можно говорить о наличии линейной зависимости между параметрами.
Условно выделяют следующие уровни корреляционной связи: слабая -- около 0,3; умеренная -- от 0,31 до 0,5; заметная -- от 0,51 до 0,7; высокая -- 0,71 и более.
По форме корреляция бывает прямой (при увеличении значений первой переменной значения второй также увеличиваются) и обратной (при увеличении значений первой переменной значения второй убывают). Коэффициент корреляции г принимает значения от -1 до +1. Обсуждать наличие корреляции имеет смысл только в тех случаях, когда она статистически значима (р < 0,05). Отсутствие линейной корреляции не означает, что параметры независимы: связь между ними может быть нелинейной.
Наиболее часто применяемыми в настоящее время методами исследования корреляции являются параметрический анализ по Пирсону и непараметрический анализ по Спирмену.
Корреляционный анализ по Пирсону используется при решении задачи исследования линейной связи двух нормально распределенных параметров. Проверяется нулевая гипотеза об отсутствии связи между параметрами, т.е. что г- 0. Кроме проверки на нормальность распределения каждого параметра до проведения корреляционного анализа рекомендуется строить график в координатах оцениваемых параметров, чтобы визуально определить характер зависимости. Если нулевая гипотеза отклоняется (р < 0,05), можно говорить о наличии значимой взаимосвязи между параметрами.
Корреляционный анализ по Спирмену применяется для исследования взаимосвязи двух параметров, если распределение хотя бы одного из них отлично от нормального. Проверяется нулевая гипотеза о том, что коэффициент корреляции равен нулю. Если нулевая гипотеза отклоняется (р < 0,05), взаимосвязь между параметрами есть.
Одновременный анализ трех и более параметров. Наряду с методами одномерного и двухмерного анализа существует большое количество методов многомерного (многофакторного) анализа данных. Они дают возможность одновременно анализировать три и более переменные. К наиболее используемым методам многомерного анализа относятся: регрессионный анализ, дискриминантный анализ, кластерный анализ, дисперсионный анализ, анализ главных компонентов, факторный анализ.
В клинических работах методы многофакторного анализа используются гораздо реже, чем описательная статистика, методы сравнения двух групп по параметру и корреляционный анализ, I хотя в последние годы наметилась тенденция к более широкому 1 применению регрессионного анализа.
Регрессионный анализ представляет собой метод статистического анализа, позволяющий исследовать вид зависимости одного параметра от нескольких других. Наряду с дискриминантным и кластерным он является одним из методов статистического моделирования. Моделью при этом является получаемое уравнение регрессии. С помощью рассчитываемых в ходе peгрессионного анализа константы и коэффициентов можно прогнозировать величину исследуемого параметра в зависимости от значений других переменных. В отличие от корреляционного анализа, который лишь дает возможность установления факта взаимосвязи параметров, он описывает вид зависимости переменных.
Регрессионный анализ подразделяют на однофакторный (один независимый параметр) и многофакторный (два и более независимых параметра), а также линейный и нелинейный.
Линейный регрессионный анализ используется в тех случаях, когда все задействованные в нем параметры являются нормально распределенными, количество значений параметров намного превышает количество самих параметров и т.д. Число ограничений на корректное проведение регрессионного анализа достаточно велико.
Самым употребляемым видом нелинейного регрессионного анализа в настоящее время является логистический. Главными условиями его применения является возможность принятия зависимым параметром только двух значений (например, есть заболевание -- единица, нет заболевания -- нуль). Все остальные параметры, задействованные в анализе, должны быть независимыми, при этом они могут быть любыми по типу -- как количественными, так и качественными.
Дискриминантный анализ -- это один из методов решения задачи классификации -- разработки правила отнесения исследуемого объекта к одной из нескольких групп на основании величин выделенных параметров.
Кластерный анализ является методом статистической группировки объектов или параметров исследования в кластеры (от англ. cluster -- гроздь, скопление) -- подмножества исследуемой выборки.
Использование в практической деятельности врача методов многофакторного статистического анализа выходит за рамки необходимых знаний и навыков, которыми он должен владеть. Их применение требует глубоких знаний математической статистики, определенного опыта работы с медицинскими данными, а порой -- даже искусства.I
3.5. Интерпретация и представление полученных результатов
В настоящее время написание клинического отчета, научной статьи и тем более диссертации невозможно без грамотного представления результатов, полученных с помощью методов математической статистики. В работе в явном виде должна присутствовать постановка задачи. Клинический материал представляется как фактически (количество больных, нозологические формы, возрастной состав; данные контрольной группы), так и в отношении технологии его формирования (отбор больных и здоровых, сроки наблюдения, исследования и др.).
Если в исследовании создавались и применялись формализованные карты, их вид обязательно приводят. Читателю должно быть ясно, какие параметры каждого пациента и с помощью какой аппаратуры и методик получены, в каких единицах измерены и какой статистической обработке были подвергнуты.
В случае, если данные помещались в таблицы, например MS Excel, или создавалась БД, например MS Access, описывается структура таблиц. Приводится также описание всех манипуляций, которые производились с данными на предварительном этапе исследования.
При описании любых результатов, связанных с использованием методов математической статистики, необходимо точно указывать названия методов, а также название и номер версии статистического пакета, который применялся.
При интерпретации результатов, связанных с проверкой статистических гипотез, необходимо придерживаться простого правила: при р > 0,05 нулевая гипотеза не отклоняется, при р < 0,05 принимается альтернативная гипотеза о существовании различий с полученной величиной уровня статистической значимости р.
При представлении результатов применения параметрических методов статистического анализа обязательно приводятся: количество объектов исследования в каждой группе, среднее и среднеквадратичное отклонение каждого исследуемого параметра, результаты применения методов проверки на нормальность распределения каждого параметра в группах, точное значение р.
При представлении результатов применения непараметрических методов статистического анализа обязательно приводятся: количество объектов исследования в каждой группе, медианы и межквартильный размах каждого исследуемого параметра, точное значение р.
Для наглядности исследуемого материала при использовании как параметрических, так и непараметрических методов имеет смысл приводить данные в графической форме, демонстрирующей характер распределения величин параметров.
Представляя результаты анализа связей между параметрами любым из методов корреляционного анализа, кроме указания названия метода нужно приводить: число анализируемых пар для каждого параметра, величину коэффициента корреляции с точностью до двух значащих цифр, точное значение р. Желательно приводить графики рассеивания объектов в координатах исследуемых параметров.
В заключение хотелось бы еще раз подчеркнуть, что гл. 2 и 3 являются «мостиком» между основами информатики и собственно медицинской информатикой, в определенном смысле данью сложившейся традиции. В дальнейшем будут рассматриваться лишь особенности использования стандартных средств в медицине и здравоохранении.
Размещено на Allbest.ru
...Подобные документы
Рассмотрение основных понятий защиты информации в сетях. Изучение видов существующих угроз, некоторых особенностей безопасности компьютерных сетей при реализации программных злоупотреблений. Анализ средств и методов программной защиты информации.
дипломная работа [1,5 M], добавлен 19.06.2015Реализация алгоритма верификации данных; разработка программы обнаружения аномальных данных в одномерных выборках. Характеристика методов D-статистики, Титьена-Мура, диаграммы "Ящик с усами"; обеспечение эффективности оценок статистических данных.
курсовая работа [2,5 M], добавлен 27.05.2013Разработка базы данных для торговой компании АО "Рамстор". Подготовка и выпуск отчетности, формирование статистики по товарам и покупателям. Формирование и выгрузка статических документов в табличный процессор MS Excel. Описание средств проектирования.
дипломная работа [997,1 K], добавлен 07.04.2014Режимы компьютерной обработки данных. Понятие и типы данных, структура и отличительные особенности. Характеристика основных операций, проводимых с данными, приемы их кодирования. Порядок и инструменты измерения информации и единицы хранения данных.
контрольная работа [104,1 K], добавлен 22.11.2010Назначение разработанных программных средств. Визуализации иклинометрии и каротажа. Изучение структуры баз данных, используемых в приложении. Встроенные типы данных Oracle и описание разработанных методов. Взаимодействие пользователя с экранной формой.
курсовая работа [1,1 M], добавлен 14.08.2014Изучение существующих методов и программного обеспечения для извлечения числовых данных из графической информации. Программное обеспечение "graphtrace", его структура и методы обработки данных. Использование этой системы для данных различного типа.
дипломная работа [3,9 M], добавлен 06.03.2013Проблема применения методов прогнозирования кадровой работы на основе использования компьютерных технологий. Концепция банка данных, сущность и функции. Отличие реляционных и объектно-ориентированных баз данных. Организация и технология обработки данных.
реферат [1,0 M], добавлен 23.09.2014Обнаружение аномальных данных в одномерных выборках. Метод D-статистики и Титьена-Мура, графический метод диаграмма "ящик с усами". Описание алгоритмов верификации данных. Руководство для программиста. Анализ данных на основе критерия D-статистики.
курсовая работа [938,4 K], добавлен 24.06.2013Особенности и классификация обучающих программных средств обучения. Обзор методов обработки экспертной информации. Требования к программному комплексу лабораторных работ. Построение логической модели данных. Описание компьютерной реализации для студента.
дипломная работа [2,0 M], добавлен 19.01.2017Анализ и оценка эффективности существующей системы обработки информации. Выбор технических и программных средств. Описание этапов проектирования базы данных "Аудиотека" и ее особенностей. Разработка инфологической модели и программного приложения.
курсовая работа [877,9 K], добавлен 06.06.2013Метод решения математической модели на примере решения задач аналитической геометрии. Описание согласно заданному варианту методов решения задачи. Разработка математической модели на основе описанных методов. Параметры окружности минимального радиуса.
лабораторная работа [310,6 K], добавлен 13.02.2009Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.
лекция [15,5 K], добавлен 19.08.2013Проектирование и функционирование системы сбора и обработки статистической информации с применением экономико-математических методов. Использование средств вычислительной и организационной техники и средств связи в органах государственной статистики.
контрольная работа [117,4 K], добавлен 11.04.2015Изучение особенностей информационного процесса обработки данных. Процессы, связанные с поиском, хранением, передачей, обработкой и использованием информации. Основные режимы обработки данных на ЭВМ. Организация обслуживания вычислительных задач.
реферат [130,9 K], добавлен 28.09.2014Анализ существующих алгоритмов обработки информации человеком и современных моделей памяти. Разработка алгоритмов и математической модели ассоциативного мышления. Имитационная модель обработки информации. Компьютерный эксперимент по тестированию модели.
курсовая работа [2,3 M], добавлен 19.11.2014Семиуровневая архитектура, основные протоколы и стандарты компьютерных сетей. Виды программных и программно-аппаратных методов защиты: шифрование данных, защита от компьютерных вирусов, несанкционированного доступа, информации при удаленном доступе.
контрольная работа [25,5 K], добавлен 12.07.2014Система управления базами данных как совокупность программных и языковых средств, предназначенных для создания и обработки данных. Анализ деятельности обувной мастерской. Особенности разработки функциональной диаграммы и тестирования программного модуля.
дипломная работа [2,9 M], добавлен 04.11.2012Информационный анализ и выявление основных сущностей предметной области. Определение взаимосвязей сущностей. Построение концептуальной модели. Логическое моделирование базы данных "Компьютерный мир". Технология сбора, передачи и обработки информации.
курсовая работа [1,9 M], добавлен 13.02.2014Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Режимы компьютерной обработки данных. Централизованный, децентрализованный, распределенный и интегрированный способы обработки данных. Средства обработки информации. Типы ведения диалога, пользовательский интерфейс. Табличный процессор MS Excel.
курсовая работа [256,9 K], добавлен 25.04.2013