Основы медицинской статистики

Понятие и задачи статистики. Основные понятия теории вероятностей. Методы и методики, используемые в медицинской статистике: организация и проведение статического исследования, расчет и анализ различных показателей, их сравнительный анализ и оценка.

Рубрика Медицина
Вид учебное пособие
Язык русский
Дата добавления 23.03.2015
Размер файла 510,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Не рекомендуется производить манипуляции и преобразования с относительными числами, т.к. они могут происходить из различных оснований (подчас даже остающихся неизвестными). Приведем такой пример (табл. 5).

Таблица 5. Летальность по больнице в целом и ее трем отделениям

Отделение больницы

Лечилось

Умерло

Коэфф. летальности, %

1-е отделение

1000

30

3,0

2-е отделение

1500

30

2,0

3-е отделение

300

21

7,0

По больнице в целом

2800

81

2,9

Иногда при подсчете складывают данные последней графы (3+2+7), полученную сумму делят на число слагаемых (3) и получают завышенный показатель - 4,0, что абсолютно неверно.

Для получения суммарного коэффициента нужно пользоваться абсолютными числами лечившихся и умерших:

Следует тщательно проверить правильный выбор основания, т.е. знаменателя коэффициента. Иногда для нахождения уровня женской смертности число умерших женщин относят ко всему населению, что не имеет никакого смысла (следует относить это число к женскому населению).

Летальность от послеоперационных осложнений нельзя вычислять по отношению к числу всех оперированных, а только по отношению к тем из них, кто имел послеоперационные осложнения. Общепринятой (однако, неправильной по существу) условностью является отнесение числа заболеваний женских половых органов к 1000 всего населения или к 100 рабочим обоего пола.

Интенсивные коэффициенты (а также некоторые коэффициенты соотношения) могут быть общими и специальными.

Общие коэффициенты характеризуют явление, взятое в целом по отношению ко всей среде. Такими коэффициентами являются коэффициенты рождаемости, смертности и заболеваемости населения, общий коэффициент летальности по больнице или ее отделению, вычисленный ко всем лечившимся, и т. д. В английской статистике эти коэффициенты называются "грубыми" (crude). И действительно, они дают только самую грубую, первоначальную ориентировку, при сравнении динамики явления или процесса во времени или в пространстве. Для более точного, углубленного и дифференцированного анализа необходимо пользоваться специальными коэффициентами, позволяющими устанавливать более тонкие и тесные связи.

Специальные коэффициенты характеризуются расчленением среды, выбором более узкого основания (например, показатели плодовитости, повозрастные показатели смертности) или расчленением явления на более конкретные показатели (заболеваемость населения отдельными болезнями, уровень смертности населения от отдельных причин). Таким образом, расчленяется или числитель, или знаменатель показателя, или и то и другое одновременно (например, коэффициент смертности детей первого года жизни от пневмонии). Однако следует считать узким и односторонним понимание специального коэффициента только как показателя, расчленяющего среду.

Общий коэффициент для данного исследования может быть только один. Наряду с этим, следует указать, что специальный коэффициент (например, детской смертности при изучении общей смертности) будет рассматриваться как общий коэффициент в другом исследовании (темой которого является только детская смертность).

Глава 4. Средние величины

Основные понятия. В медико-социальных исследованиях наряду с абсолютными и относительными широко используются средние величины. К вычислению средней величины в медицинских исследованиях обычно прибегают, когда требуется получить обобщающую характеристику явлений (процессов) по какому-либо количественному признаку. Средняя величина характеризует весь ряд наблюдений одним числом. Она нивелирует, ослабляет случайные отклонения индивидуальных наблюдений в ту или иную сторону и выдвигает на первый план основное, типичное свойство явления.

В практической деятельности врача-стоматолога средние величины используются:

Для характеристики физического развития, основных антропометрических признаков (морфологических и функциональных: рост, масса тела, окружность груди, спирометрия, динамометрия, становая сила и др.) и их динамики (средние величины прироста или убыли признака). Разработка этих показателей и их сочетаний в виде региональных стандартов имеет большое практическое значение для анализа здоровья населения, в особенности его детских групп, а также спортсменов, военнослужащих и лиц, находящихся на диспансерном учете.

Для характеристики стоматологического статуса различных групп населения, в частности показателя КПУ, OSHI, CPITN и др., а так же для характеристики различных сторон медицинской деятельности. Например, при анализе больничной помощи применяются показатели: средняя длительность пребывания больного на койке, среднее число дней занятости койки, среднее число рентгенологических исследований, лабораторных анализов, физиотерапевтических процедур на одного пролеченного больного. В практике амбулаторно-поликлинической помощи применяются такие показатели, как среднее число обращений или посещений на одного жителя в год, среднее число посещений на одно обращение, средняя длительность случая потери трудоспособности. В средних величинах обычно выражаются показатели нагрузки врачей (число выполненных УЕТ, среднее число посещений, приходящихся на одного врача, среднее число хирургических операций, рентгеновских снимков, лабораторных анализов, обследованных объектов, эндоскопических исследований).

Для характеристики физиологических сдвигов в большинстве экспериментально-лабораторных исследований (средняя температура, среднее число ударов пульса в минуту, средний уровень артериального давления, средняя скорость или среднее время реакции на тот или иной раздражитель, средние уровни содержания биохимических элементов в крови, моче, тканях).

Статистические коэффициенты и средние величины представляют собой вероятностные величины, некоторые усредненные результаты. Но между ними существуют значительные различия.

Коэффициент характеризует признак, встречающийся только у некоторой части статистического коллектива, - так называемый альтернативный признак, который может иметь или не иметь место (рождение, смерть, заболевание, инвалидность). Средние же величины охватывают признаки, присущие всем членам коллектива, но в разной степени (масса тела, рост, возраст) - этими признаками обладают все исследуемые. Коэффициенты применяются для измерения качественных признаков, а средние величины - для варьирующих количественных признаков. При использовании средних величин речь идет об отличиях в числовых размерах признака, а не о факте его наличия или отсутствия. В лабораторно-экспериментальной практике статистические коэффициенты применяются для характеристики реакций, учитываемых в альтернативной форме ("все или ничего": реакция наступает или не наступает). При учете реакции в количественной градуированной форме - концентрация, дозировка, время - для их обобщения применяются средние величины.

Основное достоинство средних величин - их типичность: средняя сразу дает ориентировку, общую характеристику явления. В связи с этим возникают две предпосылки, два условия для вычисления средних:

средние величины должны быть рассчитаны на основе качественно однородных статистических групп, имеющих существенные общие социально-экономические или биологические характеристики (если изучаемая совокупность качественно неоднородна по составу, то вычисленная на основе ее данных величина не будет правильно отражать типичные, характерные особенности изучаемого явления);

средние величины должны быть рассчитаны на совокупностях, имеющих достаточно большое число наблюдений; это требование основано на законе больших чисел.

В медико-социальных исследованиях обычно используются 4 вида средних величин: средняя арифметическая (М - Media), мода (Мо), медиана (Mе) и средняя прогрессивная (Мпр). Другие виды средних величин применяются в специальных экспериментальных углубленных исследованиях. Так, средняя квадратическая применяется для определения среднего диаметра среза клеток, результата накожных иммунологических проб, для определения средней площади опухолей; средняя кубическая - для определения среднего объема опухолей.

Средняя геометрическая применяется при расчетах численности населения в межпереписные годы, при вычислении среднего темпа роста или прироста, при обработке результатов титрования антител, токсинов и вакцин в эксперименте. Средняя гармоническая может применяться при изучении титров лизоцимов, коли-титра и коли-индекса.

Чаще всего в санитарной статистике используется средняя арифметическая величина, представляющая собой как бы прототип остальных средних.

Средние величины рассчитываются на основании вариационных рядов.

Классификация средних величин (по К. Джини)

Вариационный ряд - это статистический ряд распределения значений изучаемого количественного признака. Вариационные ряды бывают следующих видов:

простые и взвешенные;

сгруппированные (интервальные) и несгруппированные;

прерывные (дискретные) и непрерывные;

четные и нечетные;

одномодальные и мультимодальные;

симметричные и асимметричные.

Вариационный ряд состоит из вариант (v - vario) и соответствующих им частот (р - pars или иногда f - frequency). Вариантой (v) называют каждое числовое значение изучаемого признака. Частота (р) - абсолютная численность отдельных вариант в совокупности, указывающая, сколько раз встречается данная варианта в вариационном ряду. Общее число случаев наблюдений, из которых состоит вариационный ряд, обозначают буквой п (numerus).

Если исследователь имеет не более 30 наблюдений, то достаточно все значения признака расположить в нарастающем или в убывающем порядке (от максимальной варианты до минимальной или наоборот) и указать частоту каждой варианты. При большом числе наблюдений (более 30) вариационный ряд рекомендуется сгруппировать.

Простой вариационный ряд представляет собой ряд, в котором каждая варианта представлена единым наблюдением, т. е. ее частота равна единице. Во взвешенном вариационном ряду каждому значению варианты соответствует разное число частот.

Сгруппированный (интервальный) ряд имеет варианты, соединенные в группы, объединяющие их по величине в пределах определенного интервала. В несгруппированном ряду каждой отдельной варианте соответствует определенная частота.

В прерывном (дискретном) ряду варианты выражены в виде целых (дискретных) чисел, а в непрерывном ряду варианты могут быть выражены дробным и сколь угодно малым числом.

Четный вариационный ряд содержит четное число наблюдений (п),

нечетный ряд - нечетное число п.

В симметричном вариационном ряду все виды средних величин совпадают либо практически очень близки.

Мультимодальный ряд характеризуется неоднородностью.

Существуют различные способы определения средних величин в вариационных рядах.

Под средней арифметической величиной (М) в статистике понимают обобщенную величину, которая характеризует типичный размер или средний уровень варьирующего признака в расчете на единицу однородной совокупности в конкретных условиях места и времени. Средняя арифметическая величина имеет следующие свойства:

в строго симметричном ряду средняя занимает срединное положение;

М = Мо = Ме

т. е. средняя арифметическая, мода и медиана совпадают или близко прилежат друг к другу;

средняя является обобщающей величиной, она вскрывает то типичное, что характерно для всей совокупности; произведение средней на число наблюдений всегда равняется сумме произведений вариант на частоты - на этом свойстве основан непосредственный способ расчета:

сумма отклонений всех вариант от средней равна нулю:

? (V - М) = 0,

значение этого свойства состоит в том, что на нем основаны ускоренные способы расчета средней: способ моментов, способ суммирования частот и др.

Средняя арифметическая величина рассчитывается несколькими способами:

простая средняя арифметическая вычисляется на простых несгруппированных рядах, когда варианты встречаются с частотой, равной единице:

взвешенная средняя арифметическая (вычисляется в случаях, когда варианты встречаются с неодинаковой частотой):

Можно вычислить среднюю арифметическую по способу моментов (это целесообразно в случаях, когда варианты представлены большими числами, например масса тела новорожденных в граммах, и имеется число наблюдений, выраженное сотнями или тысячами случаев):

Средняя арифметическая одним числом характеризует совокупность, обобщая то, что свойственно всем ее вариантам, поэтому она имеет ту же размерность, что и каждая из вариант.

Следующим видом средних величин является средняя прогрессивная, которая имеет большое значение при планировании и в финансово-экономических расчетах. Методика получения средней прогрессивной заключается в том, что ее вычисляют по данным не всего круга наблюдений, а только прогрессивных (передовых), показывающих лучшие образцы. Границей, разделяющей данную совокупность на прогрессивную и регрессивную части, служит средняя арифметическая, т. е. средний уровень общей совокупности. В прогрессивной (передовой) части, которая находится за средним уровнем, вычисляется новая, вторая средняя величина. Это и будет средняя прогрессивная.

Сразу отметим, что реальность выдвижения этой величины в качестве нормативной обусловлена тем, что это не максимальный, труднодостижимый результат, а обобщенный опыт многих передовых образцов. Средняя прогрессивная - это средняя той части совокупности, варианты которой превышают среднюю всей совокупности. Применение средней прогрессивной в медицинской практике требует известной осторожности, так как своеобразие медицинской деятельности заключается в ее качественной стороне. Увеличение нагрузки врача или занятости койки возможно лишь в узких пределах и может сказаться на качестве лечения. Можно пользоваться средней прогрессивной при изучении деятельности лечебно-вспомогательных (например, физиотерапевтических) отделений, при изучении показателей в поликлинической практике и практике семейного врача, при учете результатов физических тренировок и достижений спортсменов.

Таким образом, различия применяемых средних величин могут быть отражены в следующих определениях: средняя арифметическая (М) является результативной суммой всех влияний, в ее формировании принимают участие все варианты без исключения, в том числе и крайние варианты, имеющие подчас эксквизитный характер. Медиана и мода, в отличие от средней арифметической, не зависят от величины всех индивидуальных значений, т. е. всех членов вариационного ряда, а обусловливаются относительным расположением или распределением вариант. Поэтому медиану и моду даже называют описательными или позиционными средними, так как они характеризуют главнейшие свойства данного распределения. Средняя арифметическая характеризует всю массу наблюдений без исключения; медиана и мода - основную массу, без учета воздействия крайних вариант, зависящих иногда от случайных причин.

Существует несколько вопросов, которые необходимо учитывать при анализе средних величин.

Первый вопрос может и должен быть решен в свете качественного анализа, определяющего сущность изучаемых явлений. Например, нельзя изучать физическое развитие вообще, без учета пола и возраста. Или вычислять средние сроки лечения больных в терапевтическом отделении без распределения их по отдельным нозологическим формам.

Необходимое число наблюдений определяется конкретно для каждого исследования при помощи средних ошибок. Следует избегать формального, шаблонного подхода: "не менее 100 наблюдений в каждой группе", т. к. этого может быть и много, и мало.

В связи с этим всегда следует помнить об опасности усреднённых данных. Необходимо применять только групповые средние, приводя наряду с ними показатели максимума и минимума колебаний.

Средняя величина представляет собой средство обобщения на базе группировок: можно вычислять, наряду с групповыми или частными, и общую среднюю для всей совокупности. Но совокупность обязательно должна быть качественно однородной, т. к. в разнотипной, разносоставной совокупности средняя теряет свой смысл и не отражает подлинной действительности.

Из таблицы 6 видно, что в ряду, где частоты не равны единице и не равны между собой, нельзя складывать значение вариант и, следовательно, простая средняя здесь неприменима. В этом случае надо вычислить среднюю арифметическую взвешенную, которая получается как сумма произведений вариант на соответствующие частоты, деленная на общее число наблюдений.

При этом каждая варианта умножается на свою частоту. Она как бы "взвешивается", и при этом частоты служат "весами".

Таблица 6. Распределение больных по срокам лечения

Число дней лечения V

Число больных р

V х р

13

1

13

14

2

28

17

2

34

18

5

90

20

4

80

22

8

176

23

5

115

25

2

50

32

2

64

38

2

76

33

726

дня.

Если варианты обозначить буквой V, частоты - буквой р, общее число наблюдений буквой N (Numerus), арифметическую сумму - буквой , то формула средней арифметической выразится следующим образом:

.

Нетрудно заметить, что эта формула средней арифметической взвешенной является пригодной и для средней арифметической простой. Т. к. в последнем случае частоты равны единице, то умножение излишне, и мы ограничиваемся простым сложением. Средняя арифметическая простая - это частный случай средней арифметической взвешенной.

Иногда на практике средние величины получают и без наличия вариационного ряда. Например, путем деления общего числа поликлинических посещений на число жителей обслуживаемого района или путем деления общей суммы койко-дней, проведенных больными в больнице, на число лечившихся больных.

Наряду со средней арифметической, в санитарной статистике применяются, хотя и реже, такие виды средних, как медиана и мода.

Медиана (обозначаемая буквами Ме) - это серединная, центральная варианта, делящая вариационный ряд пополам, на две равные части.Таким образом, медиана находится на центральном месте, от которого отстоит одинаковое число и больших, и меньших вариант (и в сторону минуса, и в сторону плюса). Приближенное нахождение медианы в простом, несгруппированном ряду производится очень легко, особенно если число наблюдений нечетное. Так, например, в табл. 6, где число наблюдений составляет 33, медианой будет 17-я по счету, т. к. в обе стороны от нее отстоит по 16 наблюдений. Путем простого подсчета убеждаемся, что значение 17-й величины составляет 22. Следовательно, медиана равна 22 дням. В ряду с четным числом наблюдений в центре находятся две величины. Иногда они одинаковы по своему значению, и тогда не возникает затруднений в приближенном определении медианы.

Мода (обозначаемая Мо) - чаще всего встречающаяся или наиболее часто повторяющаяся величина, соответствующая при графическом изображении максимальной ординате, т. е. наивысшей точке графической кривой. Таким образом, при приближенном нахождении моды в простом (несгруппированном) ряду она определяется как наиболее насыщенная или частая величина, как варианта с наибольшим количеством частот. Отличие медианы и моды от средней арифметической заключается в том, что при упрощенном, ориентировочном определении эти величины чрезвычайно легко и быстро находятся и не зависят от крайних вариант или от степени рассеяния ряда. Приближенное определение дает конкретное выражение для размеров медианы и моды. Возвращаясь к нашему примеру из табл. 6, мы видим, что варианта с наибольшим количеством частот (8) равняется 22. Мода составляет 22 дня, т. е. фактически не отличается от медианы и средней арифметической данного ряда. Подобное совпадение не является случайным. В этом можно убедиться также из последующих примеров. Объяснение этого кроется в том, что данный ряд является симметричным, близким к нормальному, так что большие отклонения средней в сторону плюса и в сторону минуса в равной мере соответствуют меньшим частотам.

Как видно из рисунка 3, при нормальном распределении все три средние величины (М, Мо, Ме) совпадают. Средняя арифметическая соответствует середине ряда, т. к. в симметричном ряду отклонения в сторону увеличения и в сторону уменьшения вариант соответственно уравновешиваются. Медиана, как центральная величина, также соответствует середине ряда. Мода, как наиболее насыщенная величина, приходится на наивысшую точку ряда, также находящуюся в его центре.

Многие распределения, с которыми встречается врач на практике, являются симметричными, близкими к нормальным. В частности, это относится к показателям физического развития.

Рис. 3. Распределение вариант в нормальной кривой

Поэтому для большинства вариационных рядов нет необходимости вычислять другие средние величины, кроме средней арифметической. В этом кроется объяснение упомянутого выше обстоятельства, что средняя арифметическая всегда является наиболее употребительной и чаще всего применяемой в санитарной статистике величиной. Прибегать к медиане и моде приходится при наличии асимметричных рядов.

Наглядное представление об этом мы получаем при рассмотрении рисунка 4, на котором изображена резко асимметричная кривая распределения умерших от рака прямой кишки по срокам длительности болезни.

У подавляющего большинства летальные исходы наступили в ранние сроки, но в отдельных случаях продолжительность болезни составила 96, 104 и более месяцев. Эти нетипичные, эксквизитные случаи "отягощают" среднюю арифметическую, которая равняется 25,6 месяца, в то время как мода, высчитанная по соответствующей формуле, составила 10,38 месяца, а медиана - 20,7 месяца. Очевидно, что наиболее типичной и характерной для данного явления средней величиной служит мода.

Таким образом, различия в применяемых средних могут быть отражены в следующих определениях. Средняя арифметическая (М) является результативной суммой всех влияний. В ее формировании принимают участие все без исключения варианты, в том числе и крайние варианты, имеющие подчас эксквизитный характер. Медиана и мода, в отличие от средней арифметической, не зависят от величины всех индивидуальных значений, т.е. всех членов вариационного ряда, а обусловливаются относительным расположением или распределением вариант. Поэтому медиану и моду также называют описательными или позиционными средними, т.к. они характеризуют главнейшие свойства данного распределения. Особенно это касается медианы, являющейся в известном смысле, непараметрической величиной. М характеризует всю массу наблюдений, а Ме и Мо - основную массу, без учета воздействия крайних вариант, т.е. исключая крайние значения, зависящие иногда от случайных причин.

Рис. 4. Распределение больных раком прямой кишки по продолжительности болезни до смерти (цифры условные)

Бредфорд Хилл говорил о моде, что она отражает не столько среднюю, сколько обычную длительность течения. Если задача заключается в нахождении величины, отражающей всю сумму индивидуальных значений вариант, то применяют М, если же надо определить величину, соответствующую главнейшим значениям вариант, применяют Мо.

В примере, приведенном на рис. 4, нас интересует не столько средний срок длительности течения болезни, сколько тот срок, до которого практически остается в живых наибольшее число больных, т. е. модальный срок. Незначительная частота моды ее обесценивает. В тех случаях, когда в асимметричных рядах мода по частоте своей не намного отличается от соседних вариант, предпочтительнее пользоваться медианой.

Бимодальный (или мультимодальный) ряд распределения всегда внушает подозрение своей неоднородностью, когда две вершины ряда получены в результате смешения качественно различных совокупностей. Так, например, при изучении физического развития школьников без учета их пола получаются две моды (одна из них характеризует мальчиков, другая - девочек). Подобное явление может наблюдаться в исследовании физического развития призывников при игнорировании национально-этнических групп. Если же вскрыть и устранить причину бимодального ряда не удается, то лучше пользоваться медианой.

Следующим видом средних величин, подлежащих нашему рассмотрению, является средняя прогрессивная. Средняя прогрессивная (табл. 7) имеет огромное значение в экономической статистике и значительно меньшее в санитарной статистике. Дело в том, что при вычислении обычной средней арифметической в нее входят все предприятия по уровню производительности труда, все колхозы по уровню урожайности и этим самым в подсчет входят и отстающие предприятия, с низким показателем.

Таблица 7. Средняя прогрессивная и методика ее вычисления

Число дней занятости койки в году

Середина интервала

Число коек в %

Произведение числа дней в каждой группе на число коек

281 - 290

285

5

1425

291 - 300

295

8

2360

301 - 310

305

17

5185

311 - 320

315

25

7875

321 - 330

325

30

9750

331 - 340

335

10 45

3350 14825

341 - 350

345

5

1725

Итого

-

100

31670

Средняя арифметическая:

дня.

Средняя прогрессивная:

дня.

Таким образом, средняя арифметическая не может быть принята в качестве правильно построенного планового норматива. Методика получения средней прогрессивной заключается в том, что её вычисляют не для всего круга предприятий или учреждений, а только для передовых, показывающих лучшие образцы работы. Границей, разделяющей их совокупность, служит средняя арифметическая, т. е. средний уровень. По той части предприятий, которая находится выше этого среднего уровня, вычисляется новая, вторая средняя величина. Это и будет средняя прогрессивная.

Сразу отметим, что реальность выдвижения этой величины в качестве нормативной обусловлена тем, что это не максимальный, трудно достижимый результат, а обобщенный опыт многих передовых образцов. Средняя прогрессивная - это средняя той части совокупности, варианты которой превышают среднюю всей совокупности. Применение средней прогрессивной в санитарно-статистической практике требует известной осторожности, т. к. своеобразие медицинской деятельности заключается в ее качественной стороне.

Увеличение нагрузки врача или занятости койки возможно лишь в узких пределах и может сказаться на качестве лечения.

Меры оценки колеблемости ряда и типичности средних величин

Средние арифметические величины, взятые сами по себе без дополнительных приемов оценки, имеют подчас ограниченное значение, т. к. они не отражают степени рассеяния (или колеблемости) ряда. Одинаковые по размеру средние могут быть получены из рядов с различной степенью рассеяния. Средние - это величины, вокруг которых рассеяны различные варианты. Понятно, что чем ближе друг к другу отдельные варианты, (значит меньше рассеяние, колеблемость ряда), тем типичнее его средняя.

Примером могут служить две средние, полученные из следующих рядов (табл. 8), составленных на сроках длительности случаев утраты трудоспособности по поводу одного и того же заболевания (числа условные).

Таблица 8. Пример получения средней величины

Число дней V

d

d2

Число дней V

d

d2

6

-1

1

1

-6

36

6

-1

1

1

-6

36

7

0

0

5

-2

4

7

0

0

11

+4

16

9

+2

4

17

+10

100

35

4

6

35

28

192

дней

дней

Обе средние величины получены правильно (сумма величин, деленная на число наблюдений), но даже "невооруженному глазу" видно, что их ценность, значение, типичность далеко не одинаковы и что вторая средняя не может служить типичной характеристикой ряда, с его резкой колеблемостью.

Очевидно, следует прибегнуть к дополнительным мерам оценки, тем более, что не всегда можно видеть сам ряд распределения, потому что в литературных материалах авторы его не приводят, а пользуются только производными величинами.

Первоначальный, приближенный метод оценки - это сравнение амплитуды рядов. Амплитуда (разность между наибольшим и наименьшим значением вариант) в первом ряду составляет всего 3, во втором - 16 (т. е. его колеблемость втрое больше).

Амплитуда второго ряда более, чем вдвое превышает значение его средней величины М. Однако амплитуда ряда не учитывает промежуточные значения вариант внутри ряда; кроме того, ее размеры связаны не только с колеблемостью, но могут зависеть и от количества наблюдений. Более точно колеблемость ряда измеряется по отклонениям.

Отклонения, обозначаемые буквой d (от латинского слова deviatio), вычисляются как разность между каждой вариантой и средней величиной. Алгебраическая сумма положительных и отрицательных отклонений от средней всегда равна нулю, т. к. средняя нивелирует эти отклонения (в нашем примере +2 и -2; +14 и -14). Попробуем сложить абсолютные значения отклонений, игнорируя их знаки, и разделить на число наблюдений. Мы получаем так называемое среднее отклонение (иногда оно называется линейным или арифметическим отклонением). В первом ряду оно относительно невелико (0,8), во втором ряду (5,6) почти достигает размеров самой средней, что разумеется её обесценивает.

Однако пользование средним отклонением основано на игнорировании положительных и отрицательных знаков, на условном допущении. Поэтому основной, наиболее правильной мерой оценки колеблемости ряда является среднее квадратическое отклонение, при котором отклонения возводятся в квадрат, и, следовательно, все они получают положительные знаки. В таблице показано вычисление среднего квадратического, или стандартного, отклонения, обозначаемого греческой буквой (сигма). Сигма первого ряда составила 1,1, сигма второго ряда - 6,2.

Значение возведения отклонений в квадрат двоякое: во-первых, оно уничтожает ошибку со знаком, во-вторых, уменьшает значение малых отклонений (меньших, чем единица) и увеличивает значение больших, т. е. делает более выпуклой и рельефной картину отклонений. Ход вычисления средней арифметической и среднего квадратического в простом ряду показан в таблице 9.

Таблица 9. Вычисление средней арифметической и среднего квадратического отклонения в простом ряду (непосредственное вычисление)

V

p

Vp

d

dp

d2

d2p

58

1

58

-4

-4

16

16

59

3

177

-3

-9

9

27

60

2

120

-2

-4

4

8

61

7

427

-1

-7

1

7

62

10

620

0

0

0

0

63

6

378

+1

+6

1

6

64

4

256

+2

+8

4

16

65

2

130

+3

+6

9

18

66

1

66

+4

+4

16

16

N = 36

=2232

=114

;

Формула при расчете среднего квадратического отклонения по способу моментов имеет следующий вид:

Из таблицы 9 видно, что в ряду, где частоты не равны единице, необходимо квадрат каждого отклонения перемножить на соответственную частоту (т.е. на те числа наблюдений, при которых наблюдалось это отклонение).

Таким образом, вычисление среднего квадратического отклонения производится путем проведения шести последовательных действий. Для вычисления сигмы необходимо:

определить отклонения от средней;

возвести отклонения в квадрат;

перемножить квадраты отклонений на частоты;

суммировать произведения квадратов отклонений на частоты;

разделить эту сумму на число наблюдений;

извлечь из частного квадратный корень.

Как видно из приведенных таблиц даже при незначительном числе наблюдений, получение средней арифметической и среднего квадратического отклонения довольно громоздко и требует ряда подсчетов. Ещё больше усложняется работа при большом числе наблюдений. На практике вычисление средних обычно производится с использованием ПЭВМ в рамках эксплуатации программы MS-EXEL.

Как уже упоминалось, сигма характеризует колеблемость ряда, степень рассеяния вокруг средней отдельных вариант. При помощи сигмы можно установить степень типичности средней, пределы рассеяния ряда, пределы колебаний вокруг средней отдельных вариант. Чем меньше сигма, тем меньше колеблемость ряда, и тем точнее и типичнее получается вычисленная на этом ряду средняя. Таким образом, при помощи сигмы мы изучаем колеблемость явления. Применение сигмы дает возможность оценки и сравнения колеблемости нескольких рядов распределения, как однотипных, так и различных, а также оценки изолированного единичного ряда и даже отдельных вариант.

При оценке однотипных рядов принимаются во внимание абсолютные размеры сигмы. Так, например, при сравнении двух рядов распределения по признаку веса, если средние будут близки по уровню, но сигма в одном ряду будет 5,6 и в другом 2,1, второй ряд будет менее рассеян, и его средняя более типична и достоверна.

При оценке колеблемости различных рядов (например, постоянства таких признаков, как вес и рост) непосредственное сравнение размеров сигмы невозможно, т.к. сигма - величина, именованная и выраженная абсолютным числом. При средней величине веса 62,6 с сигмой в 5,6 и средней величине роста 165 с сигмой 6,6 для установления степени относительной колеблемости рядов следует прибегнуть к производной величине, к коэффициенту изменчивости (вариации), обозначаемому буквой V или С. Коэффициент изменчивости получается из процентного отношения сигмы к средней:

.

Коэффициент изменчивости для веса в нашем примере будет:

.

Коэффициент изменчивости для роста - соответственно:

.

Эти цифры можно сравнить и сделать заключение, что в данном примере рост оказался вдвое более устойчивым признаком, чем вес. Этот же метод вычисления коэффициента изменчивости пригоден и для суждения об однотипных рядах, у которых очень разнятся по размеру средние величины, и для оценки изолированного, единичного ряда. Но более полное суждение о степени рассеяния единичного ряда получается путем прибавления к средней одной, двух и трёх сигм.

В ряду с распределением, близким к нормальному, в пределах M 1, т. е. средней и одной сигмы (в сторону минуса и плюса), расположено 68,3% всех вариант. В пределах M 2 расположено 95,5% всех вариант. В пределах M 3 расположено 99,7 % всех вариант. Амплитуду нормального ряда полагают равной трем сигмам в одну и другую сторону.

Требования, предваряющие определение параметров вариационного ряда

До вычисления средних величин и определения др. параметров вариационных рядов необходимо проверить, соответствует ли анализируемый материал трем обязательным требованиям, нарушение которых так или иначе ведет к ошибкам.

Требование первое - качественная однородность единиц, составляющих анализируемую статистическую совокупность. Чтобы сразу стало понятно, о чем идет речь, рассмотрим реальный пример.

Пусть требуется установить средний срок нетрудоспособности в группе больных. Формально для этого нужно поделить общее число дней нетрудоспособности на число больных, что и делается на практике безо всяких дополнительных размышлений. Но может случиться так, что упомянутая группа состоит из двух частей: больных гепатитом и больных с острыми респираторными заболеваниями (ОРЗ). Первые в массе своей будут иметь длительные сроки нетрудоспособности, измеряемые десятками дней, а у вторых нетрудоспособность будет ограничена несколькими днями.

Формальный подход, безусловно, приведет к получению среднего срока нетрудоспособности. Но этот срок не будет типичен ни для всей группы больных в целом, ни для одной из подгрупп. Ориентироваться на такой показатель, строить какие-то планы тут бессмысленно, ибо не достигнута основная цель расчета средней - выявление обобщающей характеристики статистической совокупности.

Приведенный пример подобран специально - чтобы показать необходимость расчета средних величин в качественно однородных совокупностях. И вряд ли требуется кого-то убеждать, что нужно определять отдельно средние сроки нетрудоспособности в каждой подгруппе больных - это естественно и просто соответствует здравому смыслу. Однако в жизни очень часто средние рассчитываются в качественно неоднородных совокупностях.

Рассмотрим два достаточно распространенных показателя.

Первый - средняя длительность пребывания на койке в многопрофильном стационаре. В больнице несколько отделений (челюстно-лицевая хирургия, оториноларингологическое отделение для детей, аналогичное для взрослых, отделение дневного пребывания и пр.). Средний показатель по учреждению может быть нетипичным для части из них. Тем не менее, в отчетах и при анализе употребляются обобщающие показатели по больнице в целом и много реже - по отделениям или группам пациентов.

Второй показатель - среднее число посещений в поликлинику на одного человека в год. Имеется в виду - на некоего одного усредненного человека. Но при этом теряются различия между молодыми и старыми людьми, хронически больными и здоровыми, имеющими медицинской обслуживание по месту работы и не имеющими.

Приведенные и многие другие показатели в обобщающем виде приемлемы при оценке явлений на больших территориях, среди многочисленных контингентов населения. В рамках же отдельного медицинского учреждения они требуют уточнения по группам населения, больных, по подразделениям учреждения и т.п.

Требование второе - достаточность наблюдений. Поскольку средние величины призваны обобщать какую-то типичную характеристику совокупности, последняя должна быть достаточной по численности. Методика определения необходимого объема совокупности описана в главе 5. Здесь лишь отметим, что совокупности численностью менее 30 считаются малыми и имеют ряд особенностей, учесть которые трудно. По возможности лучше избегать анализа таких малых групп.

Требование третье - учет вида распределения. Прежде, чем говорить об учете вида, нужно разъяснить, что такое распределение. Сделаем это с использованием вариационного ряда и изобразим его графически (рис. 5.).

Если в системе координат (по горизонтальной оси которой отмечены варианты, а по вертикальной - частоты) отметить точки, соответствующие этому ряду, а затем точки соединить - получится кривая распределения вариант в соответствии с их частотами.

Большинство явлений в природе имеют в принципе похожее распределение вариант, названное нормальными. Не вдаваясь в математическое описание нормального распределения отметим, что оно характеризуется колоколообразной формой с постепенным увеличением частот от начала до середины ряда и симметричным сокращением частот от середины к концу ряда (рис. 5.). Методы анализа, описанные в начале главы 4, разработаны для явлений, имеющих только нормальное распределение.

Рис. 5. Кривая нормального распределения

Вид (форма) этой кривой будет нас интересовать в связи со следующими положениями.

Рис. 6. Рис. 7.

Для других видов распределений они не годятся. В связи с этим при расчете средних в здравоохранении необходимо хотя бы приблизительно оценивать вид распределения. Так, могут встречаться распределения, имеющие максимальные частоты в начале ряда (рис. 6) или в конце (рис. 7). Их называют пуассоновским распределением и здесь требуются специальные методы анализа.

Особо следует отметить распределения, изображенные на рисунках 8 и 9. Если кривая образует два и более горба (рис. 8) или "плато" (рис. 9), это, скорее всего, свидетельствует о качественной неоднородности анализируемой совокупности.

Рис. 8. Рис. 9.

Возвращаясь к рис. 5 и сравнивая его с рис. 6 и 7 можно отметить, что это распределение приближается именно к нормальному. Следовательно, тут применимы все методы анализа явлений с нормальным распределением.

Алгоритм обработки вариационных рядов.

Обобщая уже изложенное и дополняя новыми требованиями, можно построить алгоритм обработки вариационных рядов.

Оценка качественной однородности изучаемой группы.

Определение достаточности наблюдений.

Оценка вида распределения.

Если изучаемая группа однородна, достаточна по численности и нормальна по распределению - вычисление средней величины (в нашем случае - средней арифметической - М).

Вычисление среднего квадратического отклонения - сигмы ().

Оценка типичности средней через сигму.

Если средняя типична, т.е. удовлетворяет требованиям М ? 3, то расчет средней ошибки средней арифметической (m).

Определение границ нахождения истинной величины средней арифметической.

В качестве примера попробуем определить среднюю длительность пребывания больных на койке в отделении челюстно-лицевой хирургии.

На практике подобные задачи решаются чрезвычайно просто - путем деления общего числа проведенных больными койко-дней на число больных. Если 350 больных провели 6365 койко-дней, то средняя длительность пребывания одного больного составит 6365 : 350 = 18,2 дня. Но такой расчет не позволяет оценить типичность средней, а также полностью исключает возможность получения других параметров, знание которых можно с большой пользой использовать в процессе управления здравоохранением.

Для того, чтобы рассчитать нужные параметры построим вариационный ряд (табл. 10, графы 1 - 2).

Таблица 10. Определение средней длительности пребывания больных на койке в отделении челюстно-лицевой хирургии Примечание: в скобках в графе 1 даны центральные варианты соответствующих интервалов.

Длительность пребывания - V

Число больных - Р

V Р

1

2

3

4

1 - 5 (3)

5

15

45

6 - 10 (8)

28

224

1792

11 - 15 (13)

80

1040

13520

16 - 20 (18)

111

1998

35964

21 - 25 (23)

92

2116

48668

26 - 30 (28)

30

840

23520

31 - 35 (33)

4

132

4356

Итого:

n = 350

6365

127865

Изучаемую группу больных отделения челюстно-лицевой хирургии будем считать качественно однородной, если впоследствии это не будет опровергнуто при оценке типичности средней.

Число наблюдений (n = 350) также пока будем считать достаточным, хотя это утверждение тоже может оказаться неверным.

Анализ частот в графе 2 таблицы 10 показывает, что от начала ряда примерно до его середины идет рост, затем - сокращение чисел. Это позволяет говорить о приближении распределения к нормальному. Удовлетворение требований трех первых шагов алгоритма дает право перейти к расчетам, для чего потребуются произведения вариант на их частоты (графа 3) и произведения квадратов вариант на их частоты (графа 4).

Теперь наступает важный момент - оценка типичности средней.

Упрощая по возможности расчеты, можно утверждать, что средняя типична, если равна или несколько превышает размер утроенной сигмы: М ? 3. Средняя не типична при М ? 3.

В примере: 18,2 ? 3 (3 х 5,8 = 17,4), т.е. средняя типична и ею можно пользоваться как обобщающей характеристикой совокупности. Затем определяется средняя ошибка средней величины - m = ± 0,31.

Теперь получены все расчетные параметры ряда в соответствии с алгоритмом, и остается определить, в каких границах вокруг вычисленной величины средней арифметической (М в) может находиться истинная величина средней арифметической (М ист):

М ист = М в ± t х М х m,

где t - коэффициент достоверности Стьюдента.

В примере при t = 2, М ист = 18,2 ± 2 х М х 0,31 = 18,2 ± 0,62 или, другими словами: с уверенностью 95% можно утверждать, что истинная величина среднего срока пребывания на койке находится в интервале от 17,58 дня до 18,82 дня. В данном случае разница не представляется существенной. Но нужно помнить, что при анализе другой совокупности она может быть значительно больше, и это немаловажно при пользовании средней величиной.

Использование среднеквадратического отклонения - сигмы

Незнание работниками здравоохранения основ санитарной статистики в значительной мере обедняет арсенал методов анализа. Очень характерно в этом плане выглядит возможность использования сигмы.

Ниже перечислены основные типы задач, при решении которых целесообразно применение сигмы.

Оценка типичности средней арифметической.

Вычисление средней ошибки средней арифметической.

Расчет коэффициента вариации (V)

Оценка отдельных вариант относительно средней арифметической.

Очень распространенными (и часто не решаемыми на практике) являются задачи, в которых звучит вопрос такого характера: относить ли полученную варианту к большим величинам? или к малым?

Например, в 2006 году уровень заболеваемости в городе Н. составил 1150%о. Много это или мало?

Обычно в подобной ситуации руководители здравоохранения начинают сравнивать полученный показатель со средним по стране, среднереспубликанским, среднекраевым. Но это не позволяет ответить на поставленный вопрос по крайней мере по двум причинам.

Во-первых, если, например, среднереспубликанский уровень составляет 1200 ‰, сравнение его с 1150 ‰ говорит о том, что в городе Н. заболеваемость ниже, чем в республике. А много ли 1150 ‰ для города Н. или мало - неизвестно.

Во-вторых, сопоставление показателя, полученного в рамках какого-то учреждения здравоохранения или населения определенной территории с показателем, вычисленным по другим учреждениям или территориям, имеет относительно меньшую ценность. Более информативно для управления здравоохранением выявление динамики явления именно на данной территории, в данном учреждении. Это важно знать для того, чтобы ретроспективно Ретроспективный - посвященный рассмотрению прошлого. оценить правильность и эффективность деятельности здравоохранения и планировать работу на перспективу.

Итак, первая попытка - сопоставление фактического показателя с какой-то средней величиной - не привела к решению задачи.

Второй попыткой, как правило, бывает сопоставление показателя с аналогичным за прошлый год. Пусть заболеваемость в Н. в 2005 г. составляла 1100 ‰. Можно заключить, что в 2006 г. заболеваемость выше, но много ли это для Н.? Ответить нельзя, и вторую попытку тоже следует признать неудачной.

Вместе с тем существует довольно простой способ оценки уровня заболеваемости - при условии применения сигмы.

Способ основан на правиле трех сигм: при нормальном распределении к средним вариантам (но не к средней арифметической!) относятся те, которые заключены в интервале от (х -) до (х +); малыми будут варианты в интервале от (х - 2) до (х - ), очень малыми - от (х -3) до (х -2); к большим вариантам следует относить те, что находятся между (х + ) и (х + 2), к очень большим - между (х +2) и (х +3); варианты выходящие за пределы х ± 3, следует считать выдающимися (возможно "выскакивающими") и анализировать специально.

Для использования правила трех сигм в нашем примере необходимо иметь сведения о заболеваемости в Н. за ряд лет. По этим данным можно рассчитать средний уровень заболеваемости за ряд лет и определить величину сигмы. Предположим, что средний уровень заболеваемости за 10 предыдущих (1996 - 2005 гг.) лет в Н. составил 1115 ‰, при = 40 ‰.

Тогда:

? средними следует считать уровни заболеваемости от

М - 1= 1115 - 40 = 1075 ‰ до

М + 1= 1115 +40 = 1155 ‰;

? низкими от

М - 2 = 1115 - 2 х 40 = 1035 ‰ до

М - 1= 1075 ‰;

? очень низкими от

М -3= 1115 - 3 х 40 = 995 ‰ до

М -2= 1035 ‰;

? высокими от

М + 1= 1155 ‰до

М + 2= 1115 + 2 х 40 = 1195 ‰;

? очень высокими от

М +2= 1195 ‰ до

М +3= 1115 + 3 х 40 = 1235 ‰.

Уровень 2006 г. - 1150 ‰ входит в интервал М±, т.е.(1075 ‰ - 1155 ‰), и относится, таким образом, к средним уровням заболеваемости в Н.

Поскольку заболеваемость в 2005 г. составила 1110 ‰ и тоже вошла в число средних уровней для Н., можно заключить, что заболеваемость сохраняется на среднем для Н уровне.

Следует заметить, что если бы работники здравоохранения ориентировались на среднереспубликанский уровень (1200 ‰), это могло бы привести к плачевным результатам, ибо 1200 ‰ - уровень, средний для республики, но для Н. - это очень высокий уровень заболеваемости.

Безусловно, приведенный пример схематичен, и в жизни могут встречаться куда более сложные ситуации. Но в любых случаях ориентироваться следует в первую очередь на анализ явления среди конкретного населения, в данном учреждении, уж затем - на средние по стране и прочие тенденции.

Для определения "выскакивающих вариант"

При оценке явлений в здравоохранении могут встречаться ситуации, в которых некоторые результаты наблюдений значительно отличаются ото всей основной массы единиц (т.н. "выскакивающие варианты"). Как правило, это бывает обусловлено объективными причинами. Выявление таких причин служит поводом для отделения "выскакивающих" вариант от основной массы. Если этих единиц достаточно много, их объединяют в обособленную группу и рассчитывают в ней интересующие параметры.

Однако выявление причин, обусловливающих возникновение "выскакивающих" вариант, не всегда возможно, а то и нецелесообразно в связи с необходимостью дополнительных затрат времени и сил. Применение в этих случаях сигмы позволяет довольно быстро и без выявления причин решить, является ли варианта "выскакивающей".

Пусть требуется определить средние сроки заживления ран при определенной методике лечения. Имеется группа больных, информация о которых представлена в таблице 11.

Таблица 11

Длительность заживления ран (V) в днях

Число больных (Р)

V Р

1

2

3

4

4

2

8

32

5

6

30

150

6

15

90

540

7

7

49

343

8

2

16

128

9

1

9

81

Итого:

n = 33

202

1274

Ориентировочно все варианты, которые будут отличаться от М более, чем на 4, можно признать "выскакивающими". В примере:

4= 4 х 1,2 = 4,8

6,1 - 4,8 =1,3

6,1 + 4,8 = 10,9

Таким образом, сроки заживления, превышающие 10,9 дня или не доходящие до 1,3 дня при данном методе лечения, будут "выскакивающими".

Если встретится больной со сроками заживления 11 и более дней, его следует в анализируемую группу не включать, но по возможности попытаться выяснить, чем обусловлен такой срок. Если же появится больной со сроком заживления 10 дней (или 3, или 2 дня) - его необходимо включить в анализируемую группу и пересчитать заново величины средней и сигмы - с учетом новых данных.

Для планирования

В определенных случаях сигма может использоваться и для планирования работы. Это связано со следующим свойством нормального распределения: в границах М± находится около 68% всех вариант, в границах М ±2 - 95% вариант, в границах М ±3 - 99,7% вариант. Например, требуется составить график приема и выписки из стационара больных, требующих плановой операции в связи с определенным заболеванием. Известно, что в условиях данного стационара средние сроки пребывания таких больных составляют 14 дней при = ±2 дня. Тогда:

М + 1= 14 + 2 =16 дней; М - 1= 14 - 2 = 12 дней

М+ 2= 14 + 2 х 2 =18 дней; М- 2= 14 - 2 х 2 = 10 дней

М+ 3= 14 + 2 х 3 =20 дней; М - 3= 14 - 2 х 3 = 8 дней

Методика оценки физического развития "сигмальным" методом.

В статистике здоровья населения у вместе со средней арифметической используется для индивидуальной оценки физического развития отдельных лиц изучаемых коллективов.

Признаки физического развития у данного индивидуума оцениваются в величинах среднего квадратического отклонения (сигмальная оценка). Отклонение размеров признака конкретного лица от средней величины признака всего коллектива (совокупности) оценивается следующим образом:

от - 1 у до + 1 у - среднее развитие

от - 1 у до - 2 у - развитие ниже среднего

от - 2 у и меньше - низкое развитие

от + 1 у до + 2 у - развитие выше среднего

от + 2 у и больше - высокое развитие

Сигмальный метод оценки физического развития является наиболее простым и доступным. Но, используя этот метод, можно оценивать физическое развитие только изолированно по одному из признаков (только по росту, по весу, окружности грудной клетки и т.д.). Для комплексной оценки физического развития в настоящее время используются статистические методики, описанные в специальной литературе.

Глава 5. Оценка достоверности статистических величин

Любое подмножество объектов генеральной совокупности называют выборочной совокупностью, или выборкой. Суть выборки состоит в том, что она, являясь частью генеральной совокупности, в определенной мере может характеризовать саму генеральную совокупность, т. е., обследуя часть объектов, можно сделать выводы обо всем их множестве. Как правило, генеральная совокупность имеет достаточно большое, а в идеале и бесконечное, количество элементов. Понятно, что чем больше объем выборки, тем лучше она представляет генеральную совокупность. Однако обследование больших выборок или проведение сплошных обследований зачастую просто невозможно или экономически нецелесообразно.

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.