Основы медицинской статистики

Понятие и задачи статистики. Основные понятия теории вероятностей. Методы и методики, используемые в медицинской статистике: организация и проведение статического исследования, расчет и анализ различных показателей, их сравнительный анализ и оценка.

Рубрика Медицина
Вид учебное пособие
Язык русский
Дата добавления 23.03.2015
Размер файла 510,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Второй способ - выравнивание ряда с помощью скользящей средней. Алгоритм преобразований ряда следующий:

а) образуется группа из нечетного числа уровней в начале ряда (если ряд короткий - в группу целесообразно включить 3 уровня, если длинный - можно и больше);

б) определяется средняя арифметическая величина для этой группы;

в) эта величина обозначается под средним членом группы;

г) образуется новая группа уровней путем исключения первого уровня и прибавления ближайшего последующего уровня;

д) весь алгоритм повторяется с пп. б до тех пор, пока не будет пройден весь ряд.

Таблица 30. Выявление сезонных колебаний

Месяц

(с1 по 12)

Число заболеваний (Н)

Структура

Среднедневное число заболеваний (С)

Коэффициент наглядности или индекс сезонности (К)

I

750

5,33

24,2

62,9

II

1250

8,89

44,6

115,8

III

1550

11,03

50,0

129,9

IV

1500

10,67

50,0

129,9

V

1200

8,54

38,7

100,5

VI

900

6,4

30,0

77,9

VII

850

6,04

27,4

71,2

VIII

950

6,76

30,6

79,5

IX

1250

8,89

41,7

108,3

X

1400

9,96

45,2

117,4

XI

1550

11,03

51,7

133,0

XII

900

6,4

29,0

75,3

Год

14050

100%

38,5

100%

Величина К>100% указывает на превышение в данном месяце среднегодового уровня заболеваемости, о ее подъеме. Анализ всего ряда показателей К позволяет сделать заключение о двух подъемах заболеваемости в изучаемом году с достижением пика (максимума) в марте - апреле и ноябре. Далее необходимо аналогичные расчеты провести за прочие годы и сопоставить их. Если ежегодно примерно в одни и те же месяцы будут наблюдаться пики заболеваемости - можно говорить о сезонных колебаниях. Если же подъемы заболеваемости в различные годы не совпадают - сезонности нет.

Если численность населения значительно изменяется год от года, предлагаемая методика должна несколько измениться. При этом возможны две модификации.

Первая - расчет числа заболеваний на определенную численность населения (10 тыс., 100 тыс.) и расчеты по методике в описанной уже последовательности.

Вторая - суммирование числа заболеваний за несколько лет по одноименным месяцам и за годы в целом - и реализация методики по этим данным.

Глава 7. Стандартизация

При сравнении общих показателей необходимо иметь в виду, что на их уровни может оказывать влияние неоднородность составов сравниваемых совокупностей по ряду признаков. Так, для того, чтобы сопоставить общие уровни летальности по двум больницам и сделать вывод о причинах различий в этих показателях, необходимо прежде всего проанализировать, однороден ли по нозологическим формам состав больных, лечившихся в этих больницах. Бесспорно, общий показатель летальности будет выше в той больнице, где в составе госпитализированных больных было больше лиц с тяжелыми хроническими заболеваниями. Наличие разного состава в этих больницах не позволяет сделать выводы о причинах различий в показателях летальности.

Во многих социально-гигиенических исследованиях, а также в клинических работах исключена возможность получения однородных групп для сравнения тех или иных показателей. Это касается прежде всего показателей заболеваемости, рождаемости, смертности по странам, городам, областям, районам, имеющим разный состав населения как по возрасту, так и по полу.

Довольно часто в здравоохранении и медицине встречаются ситуации, в которых качественную оценку результативного показателя проводят путем количественного его сопоставления с каким-то другим. В несколько упрощенном виде это выглядит так: если в больнице А летальность выше, чем в Б, то врачи в А работают хуже. Преждевременность подобного заключения легко проявляется, если задуматься: а в каких условиях работают врачи больниц А и Б? Сопоставимы ли эти условия? Что было бы, если условия были одинаковы, т.е. стандартны? Ответить на поставленные вопросы можно, используя метод стандартизации показателей.

Стандартизация - это метод сравнения показателей в качественно неоднородных совокупностях путем элиминирования (устранения) этой неоднородности. Стандарт - это величины, искусственно вводимые в условие решаемой задачи для элиминирования качественной неоднородности сравниваемых совокупностей.

Стандартизация позволяет решать три типа задач:

сравнивать показатели в качественно неоднородных группах (неоднородность может быть по диагнозам, полу, возрасту, социальному положению и т.д.);

получать вывод о влиянии какого-либо фактора на показатель: если после стандартизации по данному фактору результат изменился - влияние есть, если не изменился - нет;

устранять влияние какого-либо фактора на результат: если результативный показатель в какой-либо группе наблюдений в значительной мере обусловлен большими отличиями определенного фактора от обычных значений этого фактора, можно провести стандартизацию по данному фактору и проследить, как изменится результат.

Существует три метода стандартизации - прямой, косвенный и обратный. В настоящем пособии будет разобран лишь самый простой и точный - прямой. Он применяется, если известен состав изучаемой совокупности (населения, больных и пр.) по градациям исследуемого фактора и известны необходимые результативные показатели по каждой градации.

Например, если при изучении заболеваемости известны возрастной состав населения и повозрастные коэффициенты заболеваемости - можно проводить стандартизацию по возрасту прямым методом.

Этапы стандартизации:

Вычисление обычных показателей.

Выбор стандарта.

Вычисление ожидаемых величин в соответствии со стандартом.

Определение стандартизованных показателей.

Сопоставление обычных и стандартизованных показателей.

Разберем пример метода прямой стандартизации. Через больницу № 1 за год прошло 1476 больных, из них умерли 61 и летальность составила (61 х 100) : 1476 = 4,1%. Через больницу № 2 за тот же срок прошло 1700 человек, умерли 67, летальность составила (67 х 100) : 1700 = 3,9%.

Летальность в больнице № 1 выше, чем в больнице № 2. Означает ли это, что в первой врачи работают лучше? Ведь на уровень летальности может влиять состав больных. Для проверки этой гипотезы проведем стандартизацию по структуре больных в разрезе имеющихся в больницах отделений (см. графы 1 - 3 и 5 - 6 табл. 31).

Таблица 31. Распределение больных и умерших по отделениям больниц №1 и №2 и стандартизация показателей летальности

Отделение*

Больница № 1

Больница № 2

Стандарт (структура больных)

Ожидаемые числа умерших

больных

умерших

летальность

больных

умерших

летальность

в больнице №1

в больнице №2

1

2

3

4

5

6

7

8

9

10

1

700

36

5,1

300

18

6,0

47

2,40

2,82

2

350

7

2,0

1050

32

3,0

24

0,48

0,72

3

115

4

3,5

150

8

5,3

8

0,28

0,42

4

311

14

4,5

200

9

4,5

21

0,95

0,95

Всего

1476

61

4,1

1700

67

3,9

100 (чел)

4,11

4,9

*Примечание: 1 - хирургическое, 2 - терапевтическое, 3 - неврологическое, 4 - травматологическое.

В графах 4 и 7 табл. 31 приведены обычные показатели летальности по отделениям больницы, вычисленные по общепринятой методике (первый этап стандартизации):

700 - 100% 36 х 100

Второй этап - выбор стандарта - целесообразно осуществлять так:

- определить общую численность стандартного населения: если показатели рассчитывались на основание 100, взять 100 человек, если на 1000 - 1000 человек и т. д.;

- это число (в нашем случае 100) вписать в последнюю строку графы 8;

- распределить это число определенным образом по градациям изучаемого признака (в нашем случае - по отделениям); в принципе распределение может быть произвольным, но лучше провести его в соответствии со структурой одной из сравниваемых групп (в нашем случае - структурой больных по отделениям какой-либо из больниц); так, если взять за основу больницу № 1, то в ней (700 х 100) : 1476 = 47% больных прошло через хирургическое отделение, (350 х 100) : 1476 = 24% - через терапевтическое и т.д.; в соответствии с полученными величинами число 100 распределится: 47 человек - хирургической отделение, 24 человека - терапевтическое и т.д.

Для определения стандартизованных показателей летальности (четвертый этап) необходимо ожидаемые числа смертей по отделениям каждой больницы (графы 9 и 10 табл. 31) сложить и записать в последние строки соответствующих граф. Это будут ожидаемые числа случаев смерти от 100 человек стандартной группы больных в условиях больниц № 1 и № 2. А поскольку число случаев смерти определено к основанию 100, его можно называть показателем летальности, а именно: стандартизованным показателем летальности в больницах № 1 и № 2.

Остается сопоставить стандартизованные показатели с обычными (пятый этап) и сделать выводы.

Выводы:

Обычные показатели говорят о более высокой летальности в больнице №1.

После стандартизации по структуре больных по отделениям показатель летальности в больнице № 2 стал выше, чем в больнице № 1.

Заключение: если бы структура больных в больницах № 1 и № 2 была одинаковой, то летальность была бы выше во второй больнице.

Разберем порядок расчета стандартизованных показателей прямым методом еще на одном примере:

Имеется распределение абсолютного числа госпитализированных и умерших по возрастным группам в больнице А и в больнице Б (табл. 32).

Таблица 32

Возраст в годах

Больница А

Больница Б

число больных

число умерших

число больных

число умерших

0 - 1

1000

66

500

40

2 - 3

700

21

300

12

4 - 7

500

10

1000

30

8 и старше

300

3

700

8

Всего

2500

100

2500

90

I этап - расчет интенсивных показателей (в нашем примере - летальности) в двух сравниваемых совокупностях.

Таблица 33

Возраст в годах

Больница А

Больница Б

число больных

число умерших

показатель летальности (%)

число больных

число умерших

показатель летальности (%)

0 - 1

1000

66

6,6

500

40

8,0

2 - 3

700

21

3,0

300

12

4,0

4 - 7

500

10

2,0

1000

30

3,0

8 и старше

300

3

1,0

700

8

1,15

Всего

2500

100

4,0

2500

90

3,6

Сравнивая общие показатели, можно сделать заключение, что в больнице А имеется более высокий уровень летальности. Но в то же время в больнице А 68% детей находилось в возрасте до 3-х лет (1700 человек), а в больнице Б таких было лишь 32% (800 человек). Дети младшего возраста имеют более высокие показатели летальности и это могло стать причиной более высокого общего показателя. Чтобы получить общие показатели, соответствующие истинному соотношению уровней летальности, необходимо уравнять состав детей по возрасту.

II этап - выбор и расчет стандарта.

Стандартом в прямом методе называют состав населения (в данном случае больных детей), условно принимаемый одинаковым в сравниваемых группах.

За стандарт может быть принят:

состав одной из сравниваемых групп;

средний состав или состав обеих групп, вместе взятых;

состав третей группы, известный по другим материалам или по предыдущим исследованиям.

В нашем примере примем за стандарт сумму составов больных по двум больницам (табл. 34).

Таблица 34

Возраст в годах

число больных

Распределение больных в стандарте в %

больница А

больница Б

больница А + больница Б (стандарт)

0 - 1

1000

500

1500

30,0

2 - 3

700

300

1000

20,0

4 - 7

500

1000

1500

30,0

8 и старше

300

700

1000

20,0

Всего

2500

2500

5000

100,0

Таким образом, условно принимаем, что состав больных по возрасту в обеих больницах одинаков и соответствует распределению, принятому за стандарт.

III этап - вычисление "ожидаемого" числа умерших по стандарту. Каждая из больниц имеет свой фактический уровень летальности среди больных определенных возрастных групп. Рассмотрим, какое число умерших больных могло бы быть в стандартном числе больных (табл. 35).

Таблица 35

Возраст в годах

показатель летальности (в %)

распределение больных в стандарте

показатель летальности по стандарту (в %)

больница А

больница Б

больница А

больница Б

0 - 1

6,6

8,0

30,0

1,98

2,4

2 - 3

3,0

4,0

20,0

0,6

0,8

4 - 7

2,0

3,0

30,0

0,6

0,9

8 и старше

1,0

1,15

20,0

0,2

0,23

Всего

4,0

3,6

100,0

3,38

4,33

Вычисление ведется так: какое количество умерших было бы среди 30 больных стандарта в возрасте от 0 до 1 года с учетом, что в больнице А летальность у больных от 0 до 1 года была 6,6% (6,6 умерших на 100 больных), а в больнице Б - 8% (8 умерших на 100 больных).

Больница А Больница Б

6,6 - 100 8,0 - 100

х - 30 х - 30

После вычисления: среди 30 больных стандарта в возрасте от 0 до 1 года в больнице А умерло бы 1,98 больных, в больнице Б - 2,4 больных.

Аналогично рассчитываются показатели по другим возрастным группам.

IV этап - Определение стандартизованного показателя.

Число умерших, которое было бы в стандартном составе больных по возрасту, суммируется по всем возрастным группам больницы А и Б. Это и есть стандартизованные показатели: в больнице А - 3,38% (3,38 умерших на 100 больных), в больнице Б - 4,33% (4,33 умерших на 100 больных).

V этап - сравнение уровней летальности в больнице А и Б по интенсивным и стандартизованным показателям.

Анализ летальности в больницах А и Б позволил выявить следующее:

общий показатель летальности по больнице А в целом выше, чем по больнице Б (4,0% › 3,6%).

более высокий общий показатель летальности в больнице А объясняется неоднородностью возрастного состава больных и преобладанием в ней больных в возрасте от 0 до 3 лет, имеющих более высокую летальность, а более низкий показатель летальности в больнице Б обусловлен преобладанием в ней больных в возрасте старше 3-х лет, имеющих низкую летальность.

после проведения стандартизации показателей прямым методом стандартизованный показатель летальности по больнице Б оказался больше, чем по больнице А.

Таким образом, при однородном составе больных в обеих больницах летальность была бы выше в больнице Б.

У некоторой части читателей может появиться вопрос: каким же показателям верить - обычным или стандартизованным? Какие из них истинны?

Истинны, конечно, обычные показатели летальности. Они отражают фактическое состояние дел. Стандартизованные же показатели - это уже анализ, это выявление причин, обусловливающих конечные результаты. В связи с этим требуется сделать несколько замечаний.

Сопоставлять друг с другом можно лишь те стандартизованные показатели, которые вычислены с применением одного стандарта.

Изменение стандарта всегда приводит к изменению показателей, но при любом стандарте соотношение полученных по данному стандарту показателей будет соответствовать определенным закономерностям, обусловленным качественными различиями сравниваемых групп.

Сравнивать с помощью метода стандартизации можно только сопоставимые явления. Так, бессмысленно исследовать зависимость сроков пребывания больных в хирургическом и неврологическом отделениях, т.к. пришлось бы проводить стандартизацию по структуре больных в плане различных нозологий. Но последние как раз и служат причиной госпитализации в то или иное отделение. Можно сравнивать два и более одноименных отделения в разных больницах, территориальные поликлиники, сельские участки и т.п.

Глава 8. Применение непараметрических критериев в медицинской статистике

Расчет средних величин и их сопоставление, как отмечалось в предыдущих главах, строится на определении и использовании параметров вариационных рядов. Отсюда и название данного раздела статистики - параметрическая. Однако, в тех же главах указывалось, что параметры вариационных рядов можно определять лишь при соответствии их ряду требований. И одно из требований - нормальное (или близкое к нему) распределение вариантов по соответствующим частотам.

Если распределение не нормальное, то для выявления связей между явлениями следует прибегать к непараметрическим методам. К преимуществам последних следует отнести то, что они могут использоваться и в случае нормального распределения и при оценке качественных признаков. Кроме того, использование многих непараметрических критериев не требует длительных и сложных расчетов, т.к. предполагает применение уже разработанных таблиц.

Однако непараметрические критерии требуют очень четкой постановки задачи и использования их в строго очерченных для каждого метода границах. Для установления эффективности влияния некоторых факторов (лекарственного препарата, метода лечения, курения, занятий спортом и т.д.) на определенный контролируемый показатель используются критерии достоверности. При числовом выражении признаков, их нормальном распределении в совокупности, одинаковой или незначительно различающейся дисперсии по сравниваемым группам используются критерии параметрической статистики (параметрические критерии).

Однако если имеются сомнения в возможности применения указанных критериев или если исследуемый признак является качественным, следует использовать непараметрические критерии. Название "непараметрические" многие авторы связывают с тем, что методы сравнения наблюдений не зависят от вида распределения и нет необходимости расчета параметрических критериев.

В основе расчета непараметрических критериев лежит упорядочивание (ранжирование) имеющихся значений по отношению друг к другу, типа "больше - меньше" или "лучше - хуже". Это разграничение значений не предполагает точных количественных соотношений, а следовательно, и ограничений на параметры и вид распределения. Поэтому для использования непараметрических критериев нужно меньше информации, нежели для использования критериев параметрических. В качестве оценок при непараметрических методах используются относительные характеристики - ранги, инверсии, серии, знаки и др. В случае применимости параметрических критериев (нормальное распределение признака и незначительно различающиеся групповые дисперсии) они, как учитывающие большее количество информации, оказываются более мощными, чем непараметрические критерии, и именно им следует отдать предпочтение, хотя они и более трудоемки.

Впрочем, при современной вычислительной технике понятие "трудоемкость" становится условным. Персональный компьютер позволяет начинать сравнение вариационных рядов с параметрических методов (критерий Стьюдента, дисперсионный анализ). Такая практика особенно выгодна в тех научных работах, когда анализируются результаты многих (физиологических, биохимических, гематологических, психофизиологических, социологических и др.) исследований, полученных у одних и тех же лиц в динамике. В этом случае на ПЭВМ вариационные ряды удобно сравнивать по единой программе. Однако напомним о возможной ошибке: сравнение их параметрическими методами будет заканчиваться получением недостаточно достоверных данных.

В этих случаях исследование следует продолжить с применением непараметрических критериев. Особенно эффективно применение непараметрических критериев при малых выборках (п = 30). Мощность непараметрических критериев, как правило, лишь незначительно меньше мощности соответствующих параметрических критериев, а значит, используя параметрические критерии даже в случае применимости параметрических, мы не слишком рискуем ошибиться.

Непараметрические методы нашли широкое применение в микробиологических, иммунологических, фармакологических исследованиях. Гигиенистам, физиологам часто приходится иметь дело с малой численностью персонала при изучении условий жизнедеятельности на обитаемых технических объектах, а врачам-клиницистам - при изучении редких клинических форм. Учитывая ряд преимуществ исследований при малых выборках, они часто применяются и во многих других случаях. Непараметрические критерии существенно проще в вычислительной части, что позволяет использовать их для "быстрой проверки" результатов.

Непараметрические методы, используемые для сравнения результатов исследований, т. е. для сравнения выборочных совокупностей, заключаются в применении определенных формул и других операций в строгой последовательности (алгоритмы, шаги). В конечном результате высчитывается определенная числовая величина. Эту числовую величину сравнивают с табличными пороговыми значениями. Критерием достоверности будет результат сравнения полученной величины и табличного значения при данном числе наблюдений (или степеней свободы) и при заданном пороге безошибочного прогноза. Таким образом, критерий в статистической процедуре имеет основное значение, поэтому процедуру статистической оценки в целом иногда называют тем или иным критерием.

Использование непараметрических критериев связано с такими понятиями, как нулевая гипотеза (Но), уровень значимости, достоверность статистических различий. Нулевой гипотезой называют гипотезу, согласно которой две сравниваемые эмпирические выборки принадлежат к одной и той же генеральной совокупности. Если вероятность (Р) нулевой гипотезы мала, то отклонение от нее утверждает, что сравниваемые статистические выборки принадлежат к разным генеральным совокупностям.

Уровень значимости - это такая вероятность, которую принимают за основу при статистической оценке гипотезы. В качестве максимального уровня значимости, при котором нулевая гипотеза еще отклоняется, принимается 5 %. При уровне значимости больше 5 % нулевая гипотеза принимается, и различия между сравниваемыми совокупностями принимаются статистически недостоверными, незначимыми.

Особого внимания заслуживает вопрос о мощности (чувствительности) критериев. Каждый из изучаемых критериев имеет характерную для себя мощность. Оценки значимости различий необходимо начинать с наименее мощного критерия. Если этот критерий опровергает нулевую гипотезу, то на этом анализ заканчивается. Если же нулевая гипотеза этим критерием не опровергается, то следует проверить изучаемую гипотезу более мощным критерием. Однако если значение характеристики, вычисленной для менее мощного критерия, оказалось очень далеким от критического значения, то мало надежды, что более мощный критерий опровергнет нулевую гипотезу.

Следует сказать и о выборе для статистической оценки результатов подходящих критериев. Предлагаются примеры выбора адекватных методов статистической обработки данных в зависимости от задач медико-биологических исследований (см. таблицу 36).

Таблица 36 Примеры выбора методов при статистической обработке данных медико-биологических исследований

Задача исследования

Методы обработки

Оценить достоверность различий средней продолжительности одного случая заболевания рабочих в двух цехах

Критерий Стьюдента (t) для средних величин

Определить существенность различий 4 замеров (п, = п, < 20) роста детей (нормальноераспределение признака)

Критерий Лорда (U)

Оценить значимость разности уровней АД у студентов двух групп

Критерий Манна-Уитни (Т)

Определить достоверность различий уровней паратгормона у больных двух групп (п = 20), если в одной группе выявлено 6 наибольших значений

Критерий Мостеллера

Оценить достоверность различий СОЭ у больных двух групп (при различном уровне и качестве лечения)

Критерий Розенбаума(Q)

Определить уровень трансаминазы в крови здоровых и больных лиц

Критерий Уайта (К)

Установить зависимость показателей реакции утомляемости организма (сенсомоторные реакции) в начале и в конце рабочей смены

Максимум-критерий для разностей пар

Оценить эффективность новых методов лечения

Критерий Краснела-Уоллиса (Н)

Оценить влияние загрязнения окружающей среды на заболеваемость у детей

Однофакторный дисперсионный анализ

Определить надежность работы аппаратчиков с различным стажем работы, выполняющих труд нескольких степеней напряженности

Двухфакторный дисперсионный анализ

Оценить эффективность лекарственного препарата

Критерий Вилкоксона-Манна-Уитни (LI)

Определить влияние прививок на показатели заболеваемости населения

Критерий согласия (Х2) (алгебраический метод)

Выявить различия в показателях функционального состояния организма двух малых (п < 10) групп лиц

Точный метод Фишера (ТМФ)

Оценить достоверность токсического эффекта химического вещества в опыте на животных (контроль - опыт)

Критерий Ван-дер-Вардена (X)

Оценить силу действия препарата (сильное, слабое)

Критерий (Х2) Макнимара

Оценить влияние профессии на состояние здоровья рабочих (болели, не болели)

Дисперсионный анализ для альтернативных вариант

Оценить влияние времени госпитализации на исход лечения

Критерий Х2 по Р. Руниони

Оценить влияние профессии, стажа работы и места жительства на уровень заболеваемости острым бронхитом

Трехфакторный дисперсионный анализ

Определить влияние уровня автоматизации рабочего места на избыточную массу тела рабочего

Сравнение нескольких выборок по Немени

Оценить поведенческие реакции животных в эксперименте в период наблюдения

Критерий Фридмана (X2)

Определить существенность динамики показателей крови после эндогенной и экзогенной нагрузки

Критерий Вилкоксона(W)

Сравнить и оценить достоверность различий уровней заболеваемости по данным двух поликлиник

Критерий Стьюдента (t) для относительных величин

Оценить достоверность различий показателей физического развития (в баллах) в двух малых независимых выборках

Критерий Ван-дер-Вардена (X)

Установить достоверность различий частоты посещений врача мужчинами и женщинами в городской поликлинике

Критерий итерации по Веберу

Разумеется, предпочтение следует отдавать менее трудоемким методам, хотя данное требование имеет относительное значение в тех случаях, когда имеется возможность использовать современную вычислительную технику. Перед выбором адекватного метода статистического сравнения данных необходимо ответить на следующие основные вопросы:

Результаты получены в количественном или альтернативном (атрибутивном) виде, т. е., иными словами, результат каждого измерения представлен числом или альтернативной (атрибутивной, двухвариантной) оценкой: "есть признак" - "нет признака", "есть симптом" - "нет симптома" и т. д.?

Сравниваются независимые выборки (результаты исследования основной и контрольной групп) или зависимые выборки, т. е. результаты исследования одних и тех же лиц (экспериментальных животных) в динамике?

Сравниваются две или несколько выборок. Таким образом, полученный в медико-биологическом исследовании материал может быть отнесен к одному из вариантов, для каждого из которых приведены адекватные методы сравнения выборок.

I. Фактический материал исследования в выборках представлен в количественном виде, выборки независимые, сравниваются две выборки. Адекватные методы сравнения выборок:

критерий Стьюдента (t);

сравнение средних значений двух независимых малых выборок по Лорду (D);

критерий Вилкоксона-Манна-Уитни (U);

критерий Мостеллера;

критерий Розенбаума (Q);

критерий Уайта (К).

II. Варианты в выборках имеют количественное выражение, выборки независимые, сравниваются несколько выборок. Адекватные методы сравнения:

дисперсионный анализ;

сравнение нескольких независимых выборок по Немени.

III. Варианты имеют количественное выражение, выборки функционально связаны (зависимые, согласованные), т. е. с попарно связанными вариантами; сравниваются две выборки. Адекватные методы сравнения:

критерий Стьюдента (разностный метод) (t);

ранговый критерий Манна-Уитни для разностей пар (Т);

критерий знаков (Z);

максимум-критерий для разностей пар.

IV. Варианты представлены в количественном виде, выборки зависимые, сравниваются несколько выборок. Адекватные методы сравнения:

ранговый дисперсионный анализ для нескольких зависимых выборок по Фридману (X2-критерий);

множественное сравнение зависимых выборок по Вилкоксону (W).

V. Варианты в выборках представлены в альтернативном виде ("есть признак" - "нет признака"), выборки независимые, сравниваются две выборки. Адекватные методы сравнения:

критерий Стьюдента (t) (для сравнения данных исследования в относительных величинах с применением при необходимости поправок Йейтса);

критерий X2;

точный метод Фишера (ТМФ);

критерий Ван-дер-Вардена (X).

VI. Варианты представлены в альтернативном виде, сравниваются несколько независимых выборок. Адекватные методы сравнения:

дисперсионный анализ;

критерий X2 (по Р. Руниони).

VII. Выборки представлены в альтернативном виде, выборки зависимые, сравниваются две выборки. Адекватные методы сравнения:

модифицированный критерий Макнимара (X 2-критерий Макнимара);

критерий итерации по Веберу.

VIII. Выборки представлены в альтернативном виде, выборки зависимые, сравниваются несколько выборок. Адекватный метод:

критерий Кохрана (Q).

Методы в каждой из приведенных 8 групп расположены в порядке убывания их мощности. Мощность определяется вероятностью выявления существующих достоверных различий. Вместе с тем, чем она больше, тем более трудоемок метод. Для некоторых методов имеются ограничения, обусловленные, главным образом, числом единиц наблюдения в выборочной совокупности, что также необходимо учитывать при выборе метода.

Таким образом, непараметрические критерии обладают рядом важных и неоспоримых достоинств. Использование их не требует знания законов распределения изучаемых совокупностей, они могут быть применены к совокупностям не только количественным, но также к полуколичественным и качественным. Эти методы позволяют проводить статистическую обработку результатов исследования при малом числе наблюдений.

С помощью определяют соответствие (согласие) эмпирического распределения теоретическому и тем самым оценивают достоверность различия между выборочными совокупностями. Критерий применяется в тех случаях, когда нет необходимости знать величину того или иного параметра (среднюю или относительную величину) и требуется оценить достоверность различия не только двух, но и большего числа групп.

В практике работы врача метод может широко использоваться при оценке эффективности прививок, действия препаратов, результатов различных методов лечения и профилактики заболеваний, влияния условий труда и быта на заболеваемость рабочих. Применение критерия очень эффективно в случаях, когда надо сопоставить статистические совокупности с большим количеством групп (градаций признака) или когда сравниваемых совокупностей больше двух.

Рассмотрим методику использования на примерах.

Пример 1. В противотуберкулезном стационаре новый метод (НМ) лечения применялся у 42 пациентов, страдающих открытой формой туберкулеза: у 24 из них длительность лечения продолжалась до 6 месяцев, у 18 - свыше 6 месяцев; у 58 пациентов, применялся старый метод (СМ) лечения: у 16 из них лечение продолжалось до 6 мес., у 42 - свыше 6 месяцев. Вопрос: эффективен ли новый метод лечения больных туберкулезом?

Представим данные задачи в таблице 37.

Таблица 37. Распределение больных с туберкулезом легких по длительности лечения и наличию БК в мокроте

Длительность лечения

НМ

СМ

Всего

До 6 месяцев

24

16

40

Свыше 6 месяцев

18

42

60

Итого

42

58

100

Приведенная таблица называется таблицей "четырех полей" (или 2х2), т.к. вся основная информация содержится в четырех клетках, обозначенных буквами a, b, c, d.

Значение критерия хи-квадрат рассчитывается в данном случае по следующей формуле.

=

где n - общее число наблюдений

= = 8,9

Определено, что:

Если 3,84, то различия достоверны с (p<0,05);

Если 6,64, то различия достоверны с (p<0,01);

Если 10,83, то различия достоверны с (p<0,001);

Вывод: новый метод лечения более эффективен, чем старый (p<0,01).

Пример 2.

В стоматологической клинике при наличии клинических признаков пародонтита обследовано 1500 человек, в том числе 800 человек с факторами риска возникновения пародонтита.

Распределение обследованных по наличию факторов риска и уровню пародонтита приведено в таблице 38.

Вопрос: влияют ли факторы риска на формирование клинических признаков пародонтита?

Таблица 38. Распределение обследованных по уровню наличия клинических признаков пародонтита и факторов риска

Факторы риска

Наличие клинических признаков пародонтита

явные

сомнительные

отсутствуют

Всего

Есть

225

70

505

800

Нет

70

30

600

700

Итого:

295

100

1105

1500

Величина критерия в таблицах, где хотя бы у одного признака градаций более, чем две, определяется по формуле:

где

n - общее число наблюдений;

r - число градаций в результативном признаке

s - число градаций в факторном признаке

i - 1, 2, ….,r;

j - 1, 2, …., s;

nij - число, стоящее на пересечении строки i и графы j;

ni - сумма по i-ой строке;

nj - сумма по j-ой графе;

На практике эта формула реализуется так:

= 1500 х = 99,4

Приведенные в примере 1 пограничные значения могут использоваться лишь для таблиц "2х2". В примере 2 информация о распределении обследованных представлена в виде таблицы "2х3", т.е. в одном из признаков градаций более двух.

В общем виде таблицы, в которых хотя бы один признак имеет градации числом более двух, принято обозначать как таблицы "n x m", где n и m могут быть любыми числами и будут обозначать соответственно число градаций в одном и другом признаках. В таблицах "n x m" критические значения находят в два этапа:

Первый - определяют так называемое число степеней свободы n1 = (n - m) (m - 1). В примере 2 n1 = (2 - 1) (3 - 1) = 2.

Второй - по таблице 39 находят критические , превышение которых свидетельствует о наличии связи между изучаемыми факторами.

Таблица 39. Критические значения

n'

p=0,05

p=0,01

n'

p=0,05

p=0,01

n'

p=0,05

p=0,01

1

3,84

6,63

18

28,9

34,8

35

49,8

57,3

2

5,99

9,21

19

30,1

36,2

36

51,0

58,6

3

7,81

11,3

20

31,4

37,6

37

52,2

59,9

4

9,49

13,3

21

32,7

38,9

38

53,4

61,2

5

11,1

15,1

22

33,9

40,3

39

54,6

62,4

6

12,6

16,8

23

35,2

41,6

40

55,8

63,7

7

14,1

18,5

24

36,4

43,0

41

56,9

65,0

8

15,5

20,1

25

37,7

44,3

42

58,1

66,2

9

16,9

21,7

26

38,9

45,6

43

59,3

67,5

10

18,3

23,2

27

40,1

47,0

44

60,5

68,7

11

19,7

24,7

28

41,3

48,3

45

61,7

70,0

12

21,0

26,2

29

42,6

49,6

46

62,8

71,2

13

22,4

27,7

30

43,8

50,9

47

64,0

72,4

14

23,7

29.1

31

45,0

52,2

48

65,2

73,7

15

25,0

30,6

32

46,2

53,5

49

66,3

74,9

16

26,3

32,0

33

47,4

54,8

50

67,5

76,2

17

27,6

33,4

34

48,6

56,1

Вывод по примеру 2: факторы риска влияют на формирование клинических признаков пародонтита (p<0,001).

Глава 9. Измерение связи между явлениями (метод корреляции)

Все явления в природе и обществе находятся во взаимной связи. Выяснение наличия связей между изучаемыми явлениями - одна из важных задач статистики. Многие медико-биологические и медико-социальные исследования требуют установления вида связи (зависимости) между случайными величинами. Сама постановка большого круга задач в медицинских исследовательских работах предполагает построение и реализацию алгоритмов "фактор - отклик", "доза - эффект". Зачастую нужно установить наличие эффекта при имеющейся дозе и оценить количественно полученный эффект в зависимости от дозы. Решение этой задачи напрямую связано с вопросом прогнозирования определенного эффекта и дальнейшего изучения механизма возникновения именно такого отклика.

Как известно, случайные величины Х и Y могут быть либо независимыми, либо зависимыми. Зависимость случайных величин подразделяется на функциональную и статистическую (корреляционную).

Функциональная зависимость - такой вид зависимости, когда каждому значению одного признака соответствует точное значение другого. В математике функциональную зависимость переменной Х от переменной Y называют зависимостью вида Х =f(У), где каждому допустимому значению Y ставится в соответствие по определенному правилу единственно возможное значение X.

Например: взаимосвязь площади круга (S) и длины окружности (L). Известно, что площадь круга и длина окружности связаны вполне определенным отношением

S = rL,

где r - радиус круга. Умножив длину окружности на половину ее радиуса, можно точно определить площадь крута. Такую зависимость можно считать полной (исчерпывающей). Она полностью объясняет изменение одного признака изменением другого. Этот вид связи характерен для объектов, являющихся сферой приложения точных наук.

В медико-биологических исследованиях сталкиваться с функциональной связью приходится крайне редко, поскольку объекты этих исследований имеют большую индивидуальную вариабельность (изменчивость). С другой стороны, характеристики биологических объектов зависят, как правило, от комплекса большого числа сложных взаимосвязей и не могут быть сведены к отношению двух или трех факторов. Во многих медицинских исследованиях требуется выявить зависимость какой-либо величины, характеризующей результативный признак, от нескольких факториальных признаков.

Дело в том, что на формирование значений случайных величин Х и Y оказывают влияние различные факторы. Обе величины - и X, и Y - являются случайными, но так как имеются общие факторы, оказывающие влияние на них, то Х и Y обязательно будут взаимосвязаны. И связь эта уже не будет функциональной, поскольку в медицине и биологии часто бывают факторы, влияющие лишь на одну из случайных величин и разрушающие прямую (функциональную) зависимость между значениями Х и Y. Связь носит вероятностный, случайный характер, в численном выражении меняясь от испытания к испытанию, но эта связь определенно присутствует и называется корреляционной.

Корреляционной является зависимость массы тела от роста, поскольку на нее влияют и многие другие факторы (питание, здоровье, наследственность и т. д.). Каждому значению роста (X) соответствует множество значений массы (Y), причем, несмотря на общую тенденцию, справедливую для средних: большему значению роста соответствует и большее значение массы, - в отдельных наблюдениях субъект с большим ростом может иметь и меньшую массу. Корреляционной будет зависимость заболеваемости от воздействия внешних факторов, например запыленности, уровня радиации, солнечной активности и т. д. Имеется корреляционная зависимость между дозой ионизирующего излучения и числом мутаций, между пигментом волос человека и цветом глаз, между показателями уровня жизни населения и смертностью, между числом пропущенных студентами лекций и оценкой на экзамене.

Именно корреляционная зависимость наиболее часто встречается в природе в силу взаимовлияния и тесного переплетения огромного множества самых разных факторов, определяющих значение изучаемых показателей. Корреляционная зависимость - это зависимость, когда при изменении одной величины изменяется среднее значение другой.

Строго говоря, термин "зависимость" при статистической обработке материалов медико-биологических исследований должен использоваться весьма осторожно. Это связано с природой статистического анализа, который сам по себе не может вскрыть истинных причинно-следственных отношений между факторами, нередко опосредованными третьими факторами, причем эти третьи факторы могут лежать вообще вне поля зрения исследователя. С помощью статистических критериев можно дать только формальную оценку взаимосвязей. Попытки механически перенести данные статистических расчетов в объективную реальность могут привести к ошибочным выводам. Например, утверждение: "Чем громче утром кричат воробьи, тем выше встает солнце", несмотря на явную несуразность, с точки зрения формальной статистики вполне правомерно. Таким образом, термин "зависимость" в статистическом анализе подразумевает только оценку соответствующих статистических критериев.

Корреляционные связи называют также статистическими (например, зависимость уровня заболеваемости от возраста населения). Эти связи непостоянны, они колеблются от нуля до единицы. Ноль означает отсутствие зависимости между признаками, а единица - полную, или функциональную, связь, когда имеется зависимость только от одного признака.

Мерой измерения статистической зависимости служат различные коэффициенты корреляции. Выбор метода для определения взаимосвязей обусловлен видом самих признаков и способами их группировки. Для количественных данных применяют линейную регрессию и коэффициент линейной корреляции Пирсона. Для качественных признаков применяются таблицы сопряженности и рассчитываемые на их основе коэффициенты сопряженности (С и Ф), Чупрова (К). Для признаков, сформированных в порядковой (ранговой, балльной) шкале, можно применять ранговые коэффициенты корреляции Спирмена или Кендэла.

Любую существующую зависимость по направлению связи можно подразделить на прямую и обратную.

Прямая зависимость - это зависимость, при которой увеличение или уменьшение значения одного признака ведет, соответственно, к увеличению или уменьшению второго. Например: при увеличении температуры возрастает давление газа (при его неизменном объеме), при уменьшении температуры снижается и давление.

Обратная зависимость имеется тогда, когда при увеличении одного признака второй уменьшается, и наоборот: при уменьшении одного второй увеличивается. Обратная зависимость, или обратная связь, является основой нормального регулирования почти всех процессов жизнедеятельности любого организма.

Оценка силы корреляционной связи проводится в соответствии со шкалой тесноты. Если размеры коэффициента корреляции от ±0,9 до ±0,7, то связь сильная, коэффициенты корреляции от ±0,31 до ±0,69 отражают связь средней силы, а коэффициенты от ±0,3 до нуля характеризуют слабую связь.

Известное представление о наличии или отсутствии корреляционной связи между изучаемыми явлениями или признаками (например, между массой тела и ростом) можно получить графически, не прибегая к специальным расчетам. Для этого достаточно на чертеже в системе прямоугольных координат отложить, например, на оси абсцисс величины роста, а на оси ординат - массы тела и нанести ряд точек, каждая из которых соответствует индивидуальной величине веса при данном росте обследуемого. Если полученные точки располагаются кучно по наклонной прямой к осям ординат в виде овала (эллипса) или по кривой линии, то это свидетельствует о зависимости между явлениями. Если же точки расположены беспорядочно или на прямой, параллельной абсциссе либо ординате, то это говорит об отсутствии зависимости.

По форме корреляционные связи подразделяются на прямолинейные, когда наблюдается пропорциональное изменение одного признака в зависимости от изменения другого (графически эти связи изображаются в виде прямой линии или близкой к ней), и криволинейные, когда одна величина признака изменяется непропорционально изменению другой (на графике эти связи имеют вид параболы, эллипса или иной кривой линии).

Таким образом, корреляционные связи различаются по характеру (прямые и обратные), по форме (прямолинейные и криволинейные), по силе (сильная, средняя, слабая). И, наконец, корреляционные связи могут иметь разную достоверность. Существуют статистически значимые связи с высокой вероятностью достоверного прогноза минимум на 95 %, максимум - на 99 % и выше. И могут быть статистически незначимые корреляционные связи, когда вероятность достоверного прогноза ниже 95 %.

В основу исчисления коэффициента корреляции берется оценка совпадений колебаний значений взаимосвязанных признаков. Если объективно существующие колебания (вариации) этих значений совпадают, то можно говорить о наличии корреляции. Если колебания не совпадают, корреляции нет.

Коэффициент корреляции

Нас часто интересует не предсказание значения одной переменной по значению другой, а просто характеристика тесноты (силы) связи между ними, при этом выраженная одним числом.

Корреляция - это описание взаимосвязи количественных или качественных признаков.

Коэффициент корреляции (r) Пирсона является мерой корреляции, он показывает, в какой степени изменение значения одного признака сопровождается изменением значения другого в данной выборке.

Коэффициент корреляции может принимать значения от -1 до +1. Крайние значения этого интервала указывают на функциональную линейную зависимость признаков, ноль - на отсутствие статистической связи. Знак коэффициента корреляции показывает направление связи (прямая или обратная). При r>0 говорят о прямой корреляции (с увеличением одной переменной другая также возрастает), при r<0 - об обратной (с увеличением одной переменной другая уменьшается).

Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регрессионный анализ, он требует нормальности распределения. Он рассчитывается по формуле.

Алгоритм расчета коэффициента корреляции по методу квадратов:

Вычислите среднюю арифметическую простую для каждого вариационного ряда (Мx и Мy )

Найдите отклонении вариант от средней арифметической

dx = Vx - Мx

dy = Vy - Мy

Вычислите произведение dx Ч d y

Определите ? dx Ч d y

Вычислите dx 2 и d y2

Найдите ? dx 2 и ? d y2

Вычислите произведение ? dx 2 Ч ? d y2

Рассчитайте коэффициент корреляции по методу квадратов (Пирсона) по выше указанной формуле.

Пример расчета коэффициента корреляции (табл. 40).

Таблица 40. Расчет коэффициента корреляции по методу квадратов (Пирсона) rxy (Зависимость между температурой тела и числом сердечных сокращений)

Температура тела (х)

Частота пульса в мин. (y)

dx

dy

dx * dy

dx2

dy2

36

60

-2

-20

40

4

400

36


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.