Сравнение количественных данных трех и более независимых выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии
Общие сведения об использовании однофакторного дисперсионного анализа и непараметрического критерия Краскела-Уоллиса для сравнения количественных признаков трех и более независимых выборок. Алгоритм анализа данных с использованием Statistica 10 и SPSS 20.
Рубрика | Экономика и экономическая теория |
Вид | статья |
Язык | русский |
Дата добавления | 12.10.2016 |
Размер файла | 3,6 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru//
Размещено на http://www.allbest.ru//
Сравнение количественных данных трех и более независимых выборок с использованием программного обеспечения Statistica и SPSS: параметрические и непараметрические критерии
Андрей М. Гржибовский
Сергей В. Иванов
Мария А. Горбатова
Резюме
В настоящей работе представлены общие сведения об использовании однофакторного дисперсионного анализа и непараметрического критерия Краскела-Уоллиса для сравнения количественных признаков трех и более независимых выборок. Описан алгоритм анализа данных с использованием программного обеспечения Statistica 10 и SPSS 20 и представлена интерпретация результатов расчетов. Настоящая статья призвана дать общие сведения об использовании однофакторного дисперсионного анализа, критерия Краскела-Уоллиса и проведении апостериорных сравнений групп, и не заменяет прочтения специализированной литературы по статистике и клинической эпидемиологии.
Ключевые слова:, Statistica, SPSS, однофакторный дисперсионный анализ, критерий Краскела-Уоллиса, апостериорные сравнения, независимые группы. однофакторный дисперсионный выборка краскел
Статистическая обработка данных является завершающим этапом исследования, так как именно после статистического анализа принимается или отвергается исследовательская гипотеза. Примерами исследовательских гипотез являются утверждения «лечение A сокращает сроки госпитализации по сравнению с лечением B», «частота рецидивов заболевания зависит от возраста пациента», «в городе С содержание солей в водопроводной воде не превышает среднюю цифру по региону» и т.п. Вместе с тем, следует учесть, что никакой статистический анализ не может «исправить» некорректно организованное исследование и неправильно собранные данные. Именно поэтому авторы настоящей статьи настоятельно рекомендуют читателю ознакомиться с литературой по эпидемиологии [29, 18, 33], а также с практическими аспектами организации и анализа результатов различных типов научных исследований в здравоохранении (одномоментных, когортных, экологических, экспериментальных исследований и «случай-контроль»), которые представлены в статьях, опубликованных в 2015 году в журнале «Наука и Здравоохранение» [8, 9, 10, 14, 15].
Обязательным условием востребованности результатов исследований международным научным сообществом является высокое качество статистического анализа [22, 1], и задачами настоящей серии является формирование у начинающего исследователя базисных представлений о статистической обработке данных, приобретение практического опыта работы с современными статистическими пакетами программ и предупреждение типичных ошибок, возникающих в процессе анализа результатов исследования.
Данная статья посвящена вопросу сравнения количественных данных трех и более независимых групп с использованием программного обеспечения Statistica 10 и SPSS 20.
Существуют два основных типа статистических методов [4, 19, 32, 34]:
Параметрические методы, оперирующие параметрами нормального (гауссовского) распределения - средним арифметическим значением и стандартным отклонением. Нормальное распределение имеет симметричную колоколообразную форму и может быть описано с помощью среднего арифметического значения, стандартного отклонения, либо доверительных интервалов [7, 26]. Прежде чем использовать параметрические методы статистики, исследователь должен убедиться в том, что распределение имеющихся в его распоряжении данных не отличается от нормального (способы проверки распределения включают в себя посторенние гистограммы распределения, квантильной диаграммы, расчет критериев Шапиро-Уилка и Колмогорова-Смирнова подробно описаны в предыдущих выпусках журнала «Наука и Здравоохранение» [11, 12, 13], поэтому в данной статье не приводятся).
Непараметрические методы, которые не требуют нормального распределения имеющихся данных. Непараметрические критерии осуществляют ранжирование абсолютных значений признака, что позволяет нивелировать эффект выскакивающих величин («выбросов») и скошенности распределения. Следует отметить, что методы непараметрической статистики могут быть использованы и при наличии нормального распределения количественного признака, но в таком случае они будут иметь меньшую мощность по сравнению с параметрическими методами, то есть могут не уловить имеющиеся различия между группами там, где различия фактически существуют.
Параметрическим способом сравнения трех и более независимых групп является однофакторный дисперсионный анализ (англ. «One-wayanalysisofvariances» - «One-way ANOVA»). Сущность дисперсионного анализа состоит в сравнении разброса средних значений сравниваемых выборок с разбросом значений внутри самих выборок. Соответственно, чем больше отличаются средние арифметические значения сравниваемых выборок, и чем меньше разброс значений внутри выборок, тем выше вероятность различий между ними.
Применение дисперсионного анализа требует соблюдения следующих условий:
Количественный тип данных.
Независимость выборок друг от друга.
Независимость наблюдений в каждой из выборок.
Нормальное распределение признака в популяции, из которой отобраны выборки (как правило, сведения о распределении признака в популяции отсутствуют и поэтому распределение оценивают в каждой из сравниваемых выборок по-отдельности).
Равенство дисперсий изучаемого признака в популяциях, из которых взяты выборки (дисперсии также оцениваются в каждой из сравниваемых групп по-отдельности). Если дисперсии различаются, для однофакторного дисперсионного анализа используются критерии Welch или Brown-Forsythe.
Статистика критерия для однофакторного дисперсионного анализа вычисляется по формуле:
F = |
S2межгрупповая |
|
S2внутригрупповая |
где
S2межгрупповая - дисперсия совокупности, оцененная по выборочным средним (межгрупповая дисперсия),
S2внутригрупповая - дисперсия совокупности, оцененная по выборочным дисперсиям (внутригрупповая дисперсия).
Межгрупповая дисперсия рассчитывается следующим образом:
Рассчитывается разность между средним арифметическим каждой группы и общим средним по всем группам вместе.
Полученные разности возводятся в квадрат.
Полученные значения для каждой группы умножаются на количество наблюдений в данной группе.
Полученные для каждой группы величины суммируются.
Полученная сумма делится на число степеней свободы, которое рассчитывается по формуле m = (количество групп) - 1.
Внутригрупповая дисперсия рассчитывается так:
Рассчитывается разность между каждым отдельным значением в группе и средним значением по группе (расчет производится для каждой из групп по отдельности).
Полученные разности возводятся в квадрат.
Полученные числа складываются.
Полученная сумма делится на число степеней свободы, которое рассчитывается по формуле n = (общее количество наблюдений по всем группам вместе) - (количество групп).
После вычисления F-критерия его значение сравнивается с критическим значением, указанным в статистических таблицах [25, 4, 19]. Если рассчитанное значение F равно или превышает критическое значение F для определенного уровня статистической значимости (как правило, равного 0,05), нулевая статистическая гипотеза отвергается, и делается вывод о том, что группы различаются между собой по средним значениям количественного признака. Следует заметить, результаты однофакторного дисперсионного анализ не показывают, между какими именно группами найдены различия.
Чтобы ответить на данный вопрос, следует провести попарные апостериорные («post-hoc») сравнения групп между собой, для чего могут быть использованы специальные статистические критерии, с которыми можно ознакомиться в [6, 35]. Если по результатам дисперсионного анализа статистически значимых различий между группами не получено, апостериорные сравнения не имеют смысла.
Перечень используемых критериев для апостериорных сравнений представлен в таблице 1.
Таблица 1.
Статистические критерии для проведения апостериорных попарных сравнений групп.
Название критерия |
Особенности применения |
|
Критерий Бонферрони (Bonferroni) |
Дает хорошие результаты при небольшом (до 5-ти) количестве сравнений |
|
Критерий Тьюки (Tukey) |
Пригоден для проведения большого количества сравнений |
|
Критерий Данна (Dunn) |
Обладает несколько меньшей статистической мощностью по сравнению с критерием Тьюки |
|
Критерий Шеффе (Scheffe) |
||
Q-критерийRyan, Einot, Gabriel, Welch (REGWQ) |
Имеет наилучшее сочетание мощности и контроля ошибки I типа (выявление различий там, где их на самом деле нет), но требует равенства размеров групп и дисперсии изучаемого признака в группах |
|
Критерий Габриэля (Gabriel) |
Рекомендован, если количество наблюдений в сравниваемых группах отличается незначительно (на несколько единиц наблюдения) |
|
Критерий Хохберга (Hochbergs GT-2) |
Рекомендован, если количество наблюдений в сравниваемых группах существенно отличается |
|
Критерий Games-Howell |
Рекомендован, в случае обнаружения неравенства дисперсий в сравниваемых группах (проверяется с помощью критерия Levene), после использования для дисперсионного анализа критериев WelchилиBrown-Forsythe. Следует учесть, что критерий Games-Howell может оказаться слишком либеральным (выявить различия там, где они фактически отсутствуют) в случае сравнения малых по объему групп или в случае, если количество наблюдений в группах сильно отличается |
|
Критерий Даннета (Dunnett) |
Рекомендован, в случае необходимости сравнения нескольких групп с контрольной группой |
|
Критерий LSD (LeastSignificantDifference) |
Не рекомендован для использования, так как не контролирует ошибку I типа |
|
Критерий S-N-K (Studentized-Neuman-Keuls) |
Не рекомендован для использования, так как слишком либерален |
Апостериорные попарные сравнения можно проводить и с помощью критерия Стьюдента [31, 5]. При этом обязательно следует учесть, что в случае множественных сравнений значительно увеличивается вероятность увидеть различия там, где их на самом деле нет (увеличивается вероятность ошибки I типа). Чтобы компенсировать «проблему множественных сравнений», необходимо использовать скорректированный уровень статистической значимости, который рассчитывается по формуле p = 1 - 0,951/n, где n - количество производимых сравнений (поправка Бонферрони). Например, при наличии 3-х сравниваемых групп проводятся 3 сравнения (1-я группа сравнивается со 2-й, 2-я - с 3-й, и 1-я с 3-й), и p = 1 - 0,951/3 = 0,017. В случае 4-х групп проводятся уже 6 сравнений (1-2, 1-3, 1-4, 2-3, 2-4, 3-4), и, соответственно, p = 0,0085 [6, 4, 27]. Именно по этой причине неприемлемым следует считать указание в результатах исследования с участием нескольких сравниваемых групп выражений наподобие «p1-2 < 0,05; p1-3 < 0,05; p2-3 > 0,05», так как они не позволяют судить о фактической статистической значимости различий.
Тем не менее, использование критерия Стьюдента для проведения posthoc анализа нецелесообразно, так как существующие методы апостериорных сравнений, превышают его по точности и не требуют коррекции критического уровня статистической значимости [6, 35].
Рассмотрим практический пример проведения однофакторного дисперсионного анализа. Представим гипотетическое исследование, в котором сравниваются сроки госпитализации при различных стадиях какого-либо заболевания. В исследование включены по 11 пациентов с 1-й и 3-й стадиями заболе-вания и 10 пациентов со 2-й стадией заболе-вания (исследование было одномоментным, пациенты находились на лечении в разных стационарах).
Результаты наблюдений представлены в таблице 2. Имеющиеся данные полностью соответствуют условиям применения дисперсионного анализа: количественный тип данных, выборки независимы друг от друга, наблюдения независимы друг от друга, распределение длительности госпитализации соответствует нормальному распределению (читатель может проверить данное утверждение самостоятельно, используя навыки, полученные в результате прочтения предыдущих выпусков [11, 12]).
Таблица 2.
Сроки госпитализации на разных стадиях заболевания.
Группа 1 (стадия 1) |
Группа 2 (стадия 2) |
Группа 3 (стадия 3) |
||||
№ пациента |
Длительность госпитализации |
№ пациента |
Длительность госпитализации |
№ пациента |
Длительность госпитализации |
|
1 |
5 |
1 |
10 |
1 |
9 |
|
2 |
6 |
2 |
7 |
2 |
8 |
|
3 |
6 |
3 |
9 |
3 |
9 |
|
4 |
8 |
4 |
11 |
4 |
8 |
|
5 |
7 |
5 |
9 |
5 |
8 |
|
6 |
8 |
6 |
10 |
6 |
9 |
|
7 |
7 |
7 |
10 |
7 |
7 |
|
8 |
7 |
8 |
9 |
8 |
9 |
|
9 |
9 |
9 |
11 |
9 |
10 |
|
10 |
9 |
10 |
12 |
10 |
7 |
|
11 |
10 |
- |
- |
11 |
10 |
Результаты расчета:
Расчет межгрупповой дисперсии.
По результатам расчетов общее среднее по всем наблюдениям вместе составило 8,56. Среднее по группе 1 равно 7,45, по группе 2 - 9,80, по группе 3 - 8,55. Разность между средним каждой группы и общим средним: по группе 1 составило - 1,11, по группе 2 - 1,24, по группе 3 - -0,02. Квадраты разности равны 1,23, 1,53 и 0,00 соответственно. Величины после умножения полученных значений на количество наблюдений в каждой группе равны 13,50, 15,31 и 0,00. После суммирования полученных величин общая сумма составила 28,82. Число степеней свободы для 3-х групп равно 2, поэтому значение межгрупповой дисперсии равно 28,82 / 2 = 14,41.
Расчет внутригрупповой дисперсии.
Значения разности каждого отдельного значения в группе от среднего значения по группе представлены в таблице 3.
Сумма квадратов отличия от среднего составила 51,06. Число степеней свободы для 32-х наблюдений и 3-х групп равно 29. Таким образом, Значение внутригрупповой дисперсии составляет 51,06/29 = 1,76.
Расчет значения: F = 14,41/1,76 = 8,19
Сравнение полученного значения F с табличным [25, 4, 19]. Для числа степеней свободы числителя равного 2, и ближайшего к 29-ти представленного в таблице числа степеней свободы знаменателя, равного 30-ти, критическое значение для p = 0,05 составило 3,32.
Рассчитанное значение F (8,19) превышает критическое значение не только для уровня статистической значимости 0,05 (3,32), но и для уровня статистической значимости 0,01 (5,39) Таким образом, нулевая статистическая гипотеза отвергается и делается вывод о том, что группы различаются между собой по средним значениям количественного признака (при этом неизвестно, между какими именно группами найдены различия). По результатам исследования можно сделать вывод о том, что сроки госпитализации при трех стадиях заболевания различаются (F2,29 = 3,51; p < 0,01).
Таблица 3.
Сроки госпитализации на разных стадиях заболевания
Группа 1 (стадия 1) |
Группа 2 (стадия 2) |
Группа 3 (стадия 3) |
||||
Отличие от среднего |
Квадрат отличия от среднего |
Отличие от среднего |
Квадрат отличия от среднего |
Отличие от среднего |
Квадрат отличия от среднего |
|
-2,45 |
6,00 |
0,2 |
0,04 |
0,45 |
0,20 |
|
-1,45 |
2,10 |
-2,8 |
7,84 |
-0,55 |
0,30 |
|
-1,45 |
2,10 |
-0,8 |
0,64 |
0,45 |
0,20 |
|
0,55 |
0,30 |
1,2 |
1,44 |
-0,55 |
0,30 |
|
-0,45 |
0,20 |
-0,8 |
0,64 |
-0,55 |
0,30 |
|
0,55 |
0,30 |
0,2 |
0,04 |
0,45 |
0,20 |
|
-0,45 |
0,20 |
0,2 |
0,04 |
-1,55 |
2,40 |
|
-0,45 |
0,20 |
-0,8 |
0,64 |
0,45 |
0,20 |
|
1,55 |
2,40 |
1,2 |
1,44 |
1,45 |
2,10 |
|
1,55 |
2,40 |
2,2 |
4,84 |
-1,55 |
2,40 |
|
2,55 |
6,50 |
- |
- |
1,45 |
2,10 |
Чтобы узнать, какие именно стадии заболевания различаются между собой по срокам госпитализации, можно провести апостериорные сравнения с использованием критерия Стьюдента [12] со скорректированным критерием значимости, или, что предпочтительнее, использовать специализированные критерии для апостериорных сравнений (рассчитываются с помощью статистических программ).
Если имеющиеся данные не удовлетворяют необходимым условиям применения однофакторного дисперсионного анализа, используют его непараметрический аналог - критерий Краскела-Уоллиса (так называемый «непараметрический дисперсионный анализ») [6, 28].
Данный критерий используется в том случае, если распределение в группах отличается от нормального, что часто встречается в биомедицинских исследованиях, особенно в случае сравнения небольших по объему групп. Но, в ряде случаев, если фактическое распределение скошено влево или вправо, возможно проведение «нормализующей» фактическое распределение математической трансформации данных, различные варианты которой представлены в предыдущих статьях серии [11, 12].
Критерий Краскела-Уоллиса рассчитывается с использованием не фактических значений переменных сравниваемых групп, а рангов данных переменных, поэтому он не чувствителен к виду распределения.
Расчет критерия Краскела-Уоллиса выполняется следующим образом:
Все переменные сравниваемых групп объединяются и после этого ранжируются от наименьшего к наибольшему значению (совпадающим значениям присваивается средний ранг тех мест, которые занимают одинаковые значения).
Вычисляются суммы рангов по каждой из сравниваемых групп по-отдельности (R1, R2, R3 … Ri).
Рассчитывается статистика критерия Краскела-Уоллиса по формуле:
H = |
12 |
Ч (R12 / n1 + R22 / n2 + R32 / n3 + … + Ri2 / ni) - 3 Ч (N + 1) |
|
N Ч (N + 1) |
где
R - сумма рангов каждой из сравниваемых групп,
n - количество наблюдений в каждой группе,
N - общее количество наблюдений в объединенной выборке.
Полученное значение критерия Краскела-Уоллиса сравнивается с табличным [25, 4, 19], с учетом следующих условий:
- Если количество сравниваемых групп равно 3, а количество наблюдений в каждой группе не менее 5 (для четырех групп общее число наблюдений должно составлять не менее 10), то расчетное значение H сравнивают с критическим значением ч2 Пирсона (хи-квадрат) с числом степеней свободы df = k - 1, где k - количество групп. Если рассчитанное значение H равно или превышает критическое значение ч2, различия между группами считаются статистически значимыми (p < 0,05, нулевая статистическая гипотеза отвергается).
- Если количество наблюдений в группах менее 5, то в качестве критического значения используются табличные значения распределения Краскела-Уоллиса. Если расчетное значение H равно или превышает критическое табличное значение, значит, различия между группами считаются статистически значимыми (p < 0,05, нулевая статистическая гипотеза отвергается). Следует также учесть, что критерий Краскела-Уоллиса может быть использован, если минимальное число наблюдений в одной группе составляет 3, а в двух других группах - по 2 наблюдения. При сравнении четырех или пяти групп минимальное количество наблюдений в каждой группе должно быть не менее 2.
Рассмотрим практический пример использования критерия Краскела-Уоллиса. Представим гипотетическое исследование, в котором сравниваются уровни загрязнения атмосферного воздуха диокисдом азота в 3-х городах (в городах 1 и 3 уровень диоксида азота регистрировали по 5 экологическим станциям, в городе 2 - 6 станций). Результаты измерения уровня диоксида азота представлены в таблице 4.
Таблица 4.
Концентрация диокисда азота в атмосферном воздухе.
Исходные данные |
|||||||||||||||||
|
Город 1 |
Город 2 |
Город 3 |
||||||||||||||
№ экол. станции |
1 |
2 |
3 |
4 |
5 |
1 |
2 |
3 |
4 |
5 |
6 |
1 |
2 |
3 |
4 |
5 |
|
Уровень диоксида азота, мкг/м3 |
46 |
67 |
59 |
52 |
69 |
51 |
57 |
63 |
54 |
61 |
49 |
51 |
63 |
66 |
52 |
68 |
|
Ранжированные данные |
|||||||||||||||||
Уровень диоксида азота, мкг/м3 |
46 |
49 |
51 |
51 |
52 |
52 |
54 |
57 |
59 |
61 |
63 |
63 |
66 |
67 |
68 |
69 |
|
Ранг |
1 |
2 |
3,5 |
3,5 |
5,5 |
5,5 |
7 |
8 |
9 |
10 |
11,5 |
11,5 |
13 |
14 |
15 |
16 |
|
Город |
1 |
2 |
2 |
3 |
1 |
3 |
2 |
2 |
1 |
2 |
2 |
3 |
3 |
1 |
3 |
1 |
Результаты расчета суммы рангов по группам: Rгород1 = 45,5, Rгород2 = 42,0, Rгород3 = 48,5.
Согласно полученным суммам рангов:
H = |
12 |
Ч (45,52 / 5 + 42,02 / 6 + 48,52 / 5) - 3 Ч (16+ 1) = 0,99 |
|
16Ч (16 + 1) |
Согласно таблице распределения ч2, критическое значение H для df = 2 и критического уровня значимости 0,05 составляет 5,99. Расчетное значение H (0,85) меньше критического значения для уровня статистической значимости 0,05 (5,99). Таким образом, принимается нулевая статистическая гипотеза и делается вывод о том, что группы между собой не различаются. По результатам исследования можно сделать вывод о том, что загрязненность атмосферного воздуха диоксидом азота в трех городах не различается (H = 0,99, df = 2, p > 0,05).
Если в результате расчетов нулевая гипотеза отвергается (то есть принимается альтернативная гипотеза о существовании различий между группами), следующим этапом требуется провести апостериорные попарные сравнения с помощью критерия Манна-Уитни [12, 30, 5], и при этом необходимо использовать скорректированный уровень статистической значимости - учесть поправку Бонферрони. Какие-либо специализированные непараметрические критерии для апостериорных сравнений не используются.
Для того, чтобы читатель приобрел практические навыки проведения статистического сравнения трех независимых выборок количественных переменных, будет рассмотрен фрагмент данных, которые были собраны в ходе исследования, направленного на изучение метаболического синдрома и его детерминант в условиях неблагополучной социально-экологической ситуации в Южном Казахстане [16, 17, 20, 24].
В ходе данного исследования получены значения индекса массы тела (ИМТ), скорости клубочковой фильтрации (СКФ) по MDRD и постпрандиального уровня глюкозы у 39 мужчин и 108 женщин (всего обследованы 147 пациентов). Все три анализируемых признака являются непрерывными количественными переменными.
На предварительном этапе обработки данных количественная шкала значений ИМТ была переведена в номинальную: были выделены 3 «рамки» значений ИМТ: нормальная масса тела, избыточная масса тела и ожирение. Подобная группировка значений позволяет проводить сравнения между различными категориями пациентов и часто используется при анализе данных. Отметим, что получившаяся номинальная переменная, имеющая значения «нормальная масса тела», «избыточная масса тела» и «ожирение», является как номинальной, так и ординальной, поскольку все три значения могут быть ранжированы по возрастанию или убыванию.
Статистическое сравнение трех групп будет проведено с использованием программного обеспечения Statistica 10 [23, 2] и SPSS 20 [3], которые являются удобными инструментами анализа данных, часто используемыми при обработке данных биомедицинских исследова-ний. Демо-версии программ Statistica и SPSS можно загрузить с официальных сайтов разработчиков (www.stаstsoft.com и www.ibm.com соответственно).
В настоящей статье также представлены наиболее часто используемые приемы разбиения массива исследовательских данных с помощью программы SPSS 20.
Представленные ниже алгоритмы действий являются не более чем инструментом анализа данных, в то время как корректная интерпретация полученных результатов требует наличия базисных знаний в области биомедицинской статистики, которые могут быть получены только путем изучения специализированной литературы [4, 21, 19, 32, 34].
Сравнение 3-х независимых групп с использованием программы Statistica 10.
Для начала работы необходимо открыть файл 4_Filtr_glu_STAT.sta, который потребуется загрузить с сайта журнала «Наука и Здравоохранение». В данном файле представлены следующие вариационные ряды:
Категория ИМТ (переменная «Category_BMI»): номинальная группирующая переменная.
СКФ по MDRD (переменная «Filtration_MDRD»): непрерывная количественная переменная.
Постпрандиальный уровень глюкозы крови (переменная «Postprand_Glu»): непрерывная количественная переменная.
Задача статистического анализа данных - выяснить, различаются ли СКФ по MDRD и постпрандиальный уровень глюкозы крови у пациентов с различными категориями значения ИМТ.
На начальном этапе обработки данных требуется определить тип распределения, чтобы понять, можно ли использовать параметрический метод (однофакторный дисперсионный анализ), или потребуется сравнивать группы с помощью непараметрического критерия Краскела-Уоллиса. Пошаговый алгоритм проверки распределения на «нормальность» нескольких групп подробно описан в [11, 12].
Проверка на «нормальность» распределения изучаемых количественных переменных показала, что переменная «Filtration_MDRD» имеет близкое к нормальному распределение для всех трех категорий ИМТ, в то время как распределение переменной «Postprand_Glu» сильно отличается от нормального (читатель может самостоятельно убедиться в этом, выполнив проверку с использованием разделов меню «Statistics» - «BasicStatistics/Tables» - «Descriptivestatistics» - «Normality» - кнопка «Histograms» программы Statistica 10, предварительно задав вывод результатов по группам с помощью кнопки «ByGroup…»).
Таким образом, для анализа переменной «Filtration_MDRD» целесообразно использовать однофакторный дисперсионный анализ, а для переменной «Postprand_Glu» использование однофакторного дисперсион-ного анализа неприемлемо, поэтому необходимо будет воспользоваться критерием Краскела-Уоллиса.
Проведем однофакторный дисперсионный анализ переменной «Filtration_MDRD».
Для этого выберем меню «Statistics» (в верхней части рабочего пространства програм-мы), раздел «ANOVA» и в появившемся окне отметим в левом поле позицию «On-way ANOVA», а в правом - «Quickspecsdialog», подтвердив выбор нажатием кнопки «OK» (рисунок 1).
Рис. 1. Окно «General ANOVA/MANOVA» программы Statistica 10.
Далее в появившемся окне необходимо нажать на кнопку «Variables» (рисунок 2) и, как показано на рисунке 3, выбрать в качестве анализируемой переменной «Filtration_MDRD», а в качестве группирующей переменной - «Category_BMI». В обоих окнах выбор подтверждаем нажатием на кнопку «OK».
Программа снова вернется к окну «ANOVA/MANOVA Factorial ANOVA» (рисунок 2), в котором выберем значения группирующей переменной «Category_BMI», которые будут включены в анализ. Для этого нажмем на кнопку «Factorcodes», после чего откроется окно, представленное на рисунке 4, в котором нажатием на кнопку «All» выберем все три варианта группирующей переменной и подтвердим выбор кнопкой «OK».
Рис. 2. Окно «ANOVA/MANOVA Factorial ANOVA» программы Statistica 10.
Рис. 3. Окно «Selectdependentvariablesand a categorical
predictor (factor)» программы Statistica 10.
Рисунок 4. Окно «Selectcodesforindep. vars (factors)» программы Statistica 10.
В появившемся окне нажмем на кнопку «Moreresults», открывающую дополнительные меню анализа (рисунок 5).
В увеличившемся окне «ANOVA Results 1» (рисунок 6) выберем вкладку «Assumptions», после чего нажмем на кнопку «Levenestest (ANOVA)» для проверки условия равенства дисперсий.
Рис. 5. Окно «ANOVA Results 1» программы Statistica 10.
Рис. 6. Вкладка «Assumptions» окна «ANOVA Results 1» («Moreresults») программы Statistica 10.
Результаты расчета критерия Levene представлены на рисунке 7. Мы видим, что уровень статистической значимости данного критерия превышает критическое значение, равное 0,05 (p = 0,428). Таким образом, можно считать, что дисперсии признака в сравниваемых группах статистически не различаются, то есть данное условие применения дисперсионного анализа выполняется.
Рис. 7. Результаты расчета критерия Levene в программе Statistica 10.
Нажатие на вкладку «ANOVA/MANOVA» в левом нижнем углу рабочего пространства программы позволит вернуться к окну «ANOVA Results 1» («Moreresults») и продолжить анализ. В данном окне выберем вкладку «Summary» и нажмем на кнопку «Alleffects/Graphs» (рисунок 8) для запуска расчетов.
Рис. 8. Вкладка «Summary» окна «ANOVA Results 1» («Moreresults») программы Statistica 10.
Результаты расчетов представлены на рисунке 9. Мы видим значение F, равное 3,868, и достигнутый уровень статистической значимости: p = 0,023. Так как в данном окне отмечена позиция «Graph» нажатие на кнопку «OK» откроет график средних значений по всем трем группам (рисунок 10).
Рис. 9. Результаты однофакторного дисперсионного анализа для переменной «Filtration_MDRD» (окно «TableofAllEffects» программы Statistica 10).
Рис. 10. График средних значений анализируемой переменной «Filtration_MDRD» для различный значений группирующей переменной «Category_BMI».
Таким образом, мы можем сделать вывод о том, что значения СКФ по MDRD различаются у пациентов с различными категориями индекса массы тела (F2,144 = 3,87; p = 0,023).
На основании выведенного программой графика мы можем предположить, что значения СКФ по MDRD ниже у пациентов с ожирением («Category_BMI» = 3). Но это предположение остается предположением, пока оно не будет подтверждено статистическими расчетами.
Проведем попарные апостериорные сравнения между группами. Вернемся к окну анализа (вкладка «ANOVA/MANOVA» в нижней левой части рабочего поля программы), и выберем вкладку «Post-hoc» (рисунок 11).
Рис. 11. Вкладка «Post-hoc» окна «ANOVA Results 1» («Moreresults») программы Statistica 10.
Программа представит возможность расчета различных критериев для апостериорных сравнений. Например, нажатием на кнопку «Bonferroni» выберем критерий Бонферрони, результаты расчета которого представлены на рисунке 12. В открывшейся таблице по строкам и рядам представлены все три значения группирующей переменной «Category_BMI», а в ячейках таблицы - полученный при попарных сравнениях уровень статистической значимости. Мы видим, что при попарных сравнениях различия СКФ по MDRD найдены только между группой пациентов с избыточной массой тела и группой пациентов с ожирением (p = 0,038).
Рис. 12. Результаты расчета критерия Бонферрони в программе Statistica 10.
С учетом значений среднего арифметического для СКФ по MDRD, вывод будет следующим: уровень CКФ по MDRD у пациентов с ожирением (M = 121,90) статистически значимо ниже уровня CКФ по MDRD у пациентов с избыточной массой тела (M = 133,49). Также целесообразно приводить и значения стандартного отклонения для каждого признака в форме M ± s (о показателях описательной статистике подробно сказано в первой статье серии [11]).
Заметим, что при проведении posthoc сравнений корректировка критического значения p не требуется, и оно остается равным 0,05.
К сожалению, в программе Statistica 10 в разделе «ANOVA» отсутствует возможность расчета критериев Welch и Brown-Forsythe, предназначенных для проведения однофакторного дисперсионного анализа, в условиях неравенства дисперсий изучаемого признака в сравниваемых группах.
Далее рассмотрим алгоритм использования непараметрического критерия Краскела-Уоллиса для переменной «Postprand_Glu», имеющей распределение, отличного от нормального. Выберем в меню «Statistics» раздел «Nonparametrics» и в открывшемся окне выберем позицию «Comparingmultipleindep. samples (groups)», подтвердив выбор нажатием на кнопку «OK» (рисунок 13).
Рис. 13. Окно «NonparametricStatistics» программы Statistica 10.
В появившемся окне с помощью кнопки «Variables» (рисунок 14) необходимо выбрать анализируемую и группирующую переменные, как это показано на рисунке 15.
Рис. 14. Окно «Kruskal-Wallis ANOVA andMedianTest» программы Statistica 10.
Рис. 15. Окно «Selectdep. variablesandindep. (grouping) variable» программы Statistica 10.
После подтверждения выбора переменных кнопкой «OK», программа вернется к окну «Kruskal-Wallis ANOVA andMedianTest», в котором необходимо выбрать значения группирующей переменной, которые будут включены в анализ. Для этого нажмем на кнопку «Codes» и в открывшемся окне кнопкой «All» выберем все 3 значения группирующей переменной, подтвердив выбор нажатием на кнопку «OK».
Далее в окне «Kruskal-Wallis ANOVA andMedianTest» запускаем расчет критерия Краскела-Уоллиса нажатием на кнопку «Summary». Программа представит расчеты медианного теста и критерия Краскела-Уоллиса. Нас интересует критерий Краскела-Уоллиса, поэтому в дереве каталогов необходимо левой кнопкой мыши выбрать позицию «Kruskal-Wallis ANOVA byRanks» (рисунок 16). В сформированной программой таблице мы видим количество наблюдений в каждой группе, сумму рангов и средние ранги. В верхней части окна представлено значение критерия Краскела-Уоллиса (H = 11,16) и достигнутый уровень статистической значимости (p = 0,038)
Рис. 16. Результаты расчета критерия Краскела-Уоллиса для переменной «Posprand_Glu» в программе Statistica 10.
Рассчитанное значение уровня статистической значимости для критерия Краскела-Уоллиса позволяет отвергнуть нулевую статистическую гипотезу и сделать вывод о том, что уровень постпрандиальной глюкозы у пациентов с различной категорией индекса массы тела отличается (H = 11,16, df = 2, p = 0,004).
Для того, чтобы понять, какие именно группы различаются между собой, проведем попарные сравнения групп с помощью критерия Манна-Уитни [12].
Для этого войдем в меню «Nonparametrics» и в открывшемся окне «NonparametricStatistics» (рисунок 13) выберем позицию «Comparingtwoindependentsamples (groups)», подтвердив выбор кнопкой «OK».
Откроется окно «Comparingtwogroups», в котором с помощью кнопки «Variables» как обычно выберем в качестве анализируемой переменной «Postprand_Glu», а в качестве группирующей - «Category_BMI». Следует обратить внимание на поля «Codesfor» - «Group 1» и «Group 2», в которые необходимо внести коды групп для попарного сравнения. Установим исходные значения 1 и 2, как показано на рисунке 17, что позволит сравнить пациентов с нормальной массой тела с пациентами с избыточной массой тела.
Рис. 17. Окно «ComparingTwoGroups» программы Statistica 10.
Нажатие на кнопку «Mann-Whitney U test» запустит расчет критерия Манна-Уитни.
Для повторения анализа для сравнения группы 1 с группой 3 и группы 2 с группой 3 потребуется дважды возвращаться к окну «ComparingTwoGroups» (вкладка «ComparingTwoGroups» в нижней левой части рабочего пространства программы) и вносить новые значения переменной «Category_BMI» в поля «Codesfor».
Результаты попарных сравнений представлены на рисунке 18.
Мы видим, что уровень статистической значимости оказался ниже 0,05 как при сравнении группы 1 с группой 2, так и при сравнении группы 2 с группой 3.
С учетом «эффекта множественных сравнений», значение 0,05 не может считаться критическим, и новый критический уровень p должен быть рассчитан по формуле: p = 1 - 0,951/3 = 1 - 0,983 = 0,017 (с учетом проведенных трех попарных сравнений). Теперь мы видим, что различия между группой 1 и группой 3 оказались статистически не значимыми, так как значение p, равное 0,022, хоть и незначительно, но превышает критическое.
Таким образом, на формальных основаниях, мы можем сделать вывод о том, что постпрандиальный уровень глюкозы различался только у пациентов с избыточной массой тела и пациентов с ожирением.
Рис. 18. Результаты попарных сравнений значений переменной «Postprand_Glu» с помощью критерия Манна-Уитни в программеStatistica 10.
Но данное утверждение нельзя считать в достаточной мере логичным, ведь получается, что постпрандиальный уровень глюкозы у пациентов с ожирением не отличается от такового у лиц с нормальной массой тела, но отличается от такового у пациентов с избыточной массой тела, что противоречит клиническому опыту. Разобраться в ситуации поможет графическое представление постпрандиального уровня глюкозы для всех сравниваемых групп (рисунок 19). В программе Statistica 10 подобную диаграмму (но менее наглядную) можно построить с использованием меню «Graphs» раздел «2D Graphs», подраздел «BoxPlots», выбрав анализируемую и группирующую переменные и указав в качестве центральной тенденции медиану.
Рис. 19. Квартильная диаграмма постпрандиального уровня глюкозы
у пациентов с различной категорией ИМТ.
Мы видим, что у пациентов с ожирением медиана постпрандиального уровня глюкозы расположена несколько выше по сравнению с остальными двумя группами пациентов. Более важным является тот факт, что прямоугольник, соответствующий 50% наблюдений в каждой группе (от 1-го до 3-го квартилей), для группы пациентов с ожирением расположен выше по сравнению с остальными двумя группами. Исходя из представленной графической информации и значений медиан можно предположить, что у пациентов с ожирением постпрандиальный уровень глюкозы выше по сравнению с пациентами как с избыточной массой тела (группа 2), так и с нормальной массой тела (группа 1). Но апостериорные сравнения подтвердили различия только между группами 2 и 3.
В данном примере наглядно проявилась проблема «дихотомического» подхода к оценке уровня статистической значимости: если он меньше критического уровня, однозначно считают, что различия есть, а если он оказался больше критического уровня или равным ему, то однозначно считают, что различий нет.
Но ведь p = 0,049 и p = 0,051 - это почти одно и то же, и вывод о наличии или отсутствии различий между группами на основании различий в вероятности, составляющей всего лишь 0,1%, трудно считать достаточно обоснованным. Именно поэтому заключение о различиях между группами следует делать не только на основании того, больше или меньше критического уровня оказалось значение p, но и учитывать степень отличия p от критического уровня (по этой причине в результатах научной работы следует приводить значения статистических коэффициентов и рассчитан-ный уровень статистической значимости, избегая выражений «p < 0,05» и «p > 0,05»).
Оценку результатов статистического анализа также нельзя проводить в отрыве от сути исследуемых явлений и методологии исследования, объективного подхода к качеству собранных данных, оценки возможного влияния вмешивающихся факторов (конфаундеров) и, разумеется, здравого смысла.
Таким образом, целесообразно сделать заключение о том, что постпрандиальный уровень глюкозы у пациентов с ожирением статистически значимо превышает постпрандиальный уровень глюкозы у пациентов с избыточной массой тела (U = 1025, Z = -3,1, p = 0,002), и статистически не значимо превышает постпрандиальный уровень глюкозы у пациентов с нормальной массой тела (U = 794, Z = -2,3, p = 0,022) с учетом критического уровня статистической значимости, равного 0,017.
Так как полученное значения p оказалось близким к критическому уровню, для выяснения скорректированных («adjusted») значений статистических коэффициентов и достигнутых уровней статистической значимости, в ходе обработки данных целесообразно исключить из анализа «выскакивающие» значения, или на уровне анализа уже собранных данных устранить влияние конфаундеров (используются рестрикция и стратификация данных, а также другие методы, описанные в руководствах по эпидемиологии [29, 18, 33]). Разумеется, все способы модификации исходных данных должны быть тщательно обдуманы и обоснованы.
Сравнение 2-х независимых групп с использованием программы SPSS 20.
Для начала работы необходимо открыть файл 4_Filtr_Glu_SPSS.sav, который следует загрузить с сайта журнала «Наука и Здравоохранение». В файле представлены те же вариационные ряды, что и в файле данных программы Statistica: категория ИМТ («Category_BMI»), СКФ по MDRD («Filtration_MDRD»), постпрандиальный уровень глюкозы крови («Postprand_Glu»). Также представлена еще одна номинальная переменная - пол пациента («Gender») имеющая значение «1» для мужчин и «2» для женщин.
На начальном этапе обработки данных потребуется определить тип распределения. Пошаговый алгоритм проверки распределения на «нормальность» с использованием программы SPSS 20 подробно описан в [11, 12], и поэтому не будет представлен в настоящей статье.
Для проведения однофакторного дисперсионного анализа войдем в меню «Analyze», раздел «Comparemeans», подраздел «One-Way ANOVA» (рисунок 20).
Рис. 20. Выбор раздела «One-WayANOVA» меню «Analyze» программы SPSS 20.
В открывшемся окне «One-Way ANOVA» перенесем переменную «Filtration_MDRD» в поле «DependentList», а переменную «Category_BMI» - в поле группирующей переменной «Factor» (рисунок 21).
Рис. 21. Окно «One-Way ANOVA» программы SPSS 20.
Далее нажатием на кнопку «PostHoc» откроем меню апостериорных сравнений, в котором увидим возможность использования 18-ти различных критериев для апостериорных сравнений (см. выше). Например, выберем критерий Бонферрони, подтвердив выбор нажатием на кнопку «Continue» (рисунок 22).
Далее нажмем на кнопку «Options» (рисунок 21) и выберем позиции «Descriptive» (вывод показателей описательной статистики), «Homogeneityofvariancetest» (расчет критерия Levene для проверки равенства дисперсий) и критерии Brown-Forsythe и Welch (для проведения дисперсионного анализа в случае неравенства дисперсий). Также отметим «Meansplot» для вывода графика средних арифметических значений (рисунок 23). Выбор подтверждаем нажатием на кнопку «Continue». Запуск анализа производится кнопкой «OK» (рисунок 21).
Рис. 22. Окно « One-Way ANOVA: PosthocMultipleComparisons» программы SPSS 20.
Рис. 23. Окно «One-Way ANOVA: Options» программы SPSS 20.
Программа представляет результаты расчетов в виде нескольких таблиц, из которых будут приведены наиболее важные. В таблице 4 приведены результаты расчета критерия Levene (уровень статистической значимости («Sig.») составил 0,426), в таблице 5 - результаты дисперсионного анализа (F = 3,868, p = 0,023). В таблице 6 представлены результаты расчета критериев Welch и Brown-Forsythe, которые следует использовать, если условие равенства дисперсий не выполняется (в случае, если уровень статистической значимости критерия Levene меньше 0,05).
Таблица 4.
Результаты расчета критерия Levene для проверки равенства дисперсий переменной «Filtration_MDRD».
LeveneStatistic |
df1 |
df2 |
Sig. |
|
,853 |
2 |
144 |
,428 |
Таблица 5.
Результаты дисперсионного анализа переменной «Filtration_MDRD».
|
SumofSquares |
df |
MeanSquare |
F |
Sig. |
|
BetweenGroups |
4650,220 |
2 |
2325,110 |
3,868 |
,023 |
|
WithinGroups |
86565,416 |
144 |
601,149 |
|
|
|
Total |
91215,636 |
146 |
|
|
|
Таблица 6.
Результаты расчетов критериев Welch и Brown-Forsythe для переменной «Filtration_MDRD».
|
Statistica |
df1 |
df2 |
Sig. |
|
Welch |
3,782 |
2 |
86,133 |
,027 |
|
Brown-Forsythe |
4,061 |
2 |
133,742 |
,019 |
График средних значений переменной «Filtration_MDRD» представлен на рисунке 24. Результаты апостериорных попарных сравнений групп между собой с помощью критерия Бонферрони представлены в таблице 7.
Рис. 24. График средних значений переменной «Filtration_MDRD».
Таблица 7.
Результаты апостериорных сравнений переменной «Filtration_MDRD» с использованием критерия Бонферрони.
(I) Category_BMI |
(J) Category_BMI |
MeanDifference (I-J) |
Std. Error |
Sig. |
95% ConfidenceInterval |
||
Lower Bound |
Upper Bound |
||||||
Normalweight |
Overweight |
-1,20589 |
5,49589 |
1,000 |
-14,5184 |
12,1066 |
|
Obesity |
10,58365 |
5,18934 |
,130 |
-1,9863 |
23,1536 |
||
Overweight |
Normalweight |
1,20589 |
5,49589 |
1,000 |
-12,1066 |
14,5184 |
|
Obesity |
11,78954* |
4,66609 |
,038 |
,4870 |
23,0921 |
||
Obesity |
Normalweight |
-10,58365 |
5,18934 |
,130 |
-23,1536 |
1,9863 |
|
Overweight |
-11,78954* |
4,66609 |
,038 |
-23,0921 |
-,4870 |
Результаты однофакторного дисперсионного анализа, полученные с помощью программы SPSS 20, соответствуют полученным с использованием программы Statistica 10 и не требуют дополнительных пояснений.
Далее выполним расчет критерия Краскела-Уоллиса для переменной «Postprand_Glu», имеющей распределение, отличное от нормального.
Для этого снова войдем в меню «Analyze», выберем раздел «NonparametricTests», подраздел «LegacyDialogs», в котором выберем позицию «K IndependentSamples», как показано на рисунке 25.
Рис. 25. Выбор раздела «K IndependentSamples» меню «Analyze» программы SPSS 20.
В открывшемся окне «TestforSeveralIndependentSamples» оставим отмеченной позицию «Kruskal-Wallis H», перенесем переменную «Postprand_Glu» в поле «TestVariableList», а переменную «Category_BMI» - в поле группирующей переменной «GroupingVariable» (рисунок 26), после чего потребуется нажать на кнопку «DefineRange» и выбрать значения группирующей переменной так, как показано на рисунке 27, подтвердив выбор кнопкой «Continue».
Рис. 26. Окно «TestforSeveralIndependentSamples» программы SPSS 20.
Рис. 27. Окно «SeveralIndependentSamples» (выбор значений группирующей переменной) программы SPSS 20.
Запуск анализа производится кнопкой «OK» (рисунок 26).
Результаты расчета критерия Краскела-Уоллиса программа представляет в виде таблицы (таблица 8), в которой значение H представлено в строке «Chi-Square» (11,162), а уровень статистической значимости - в строке «Asymp. Sig.» (0,004).
Таблица 8.
Результаты расчета критерия Краскела-Уоллиса для переменной «Postprand_Glu».
|
Postprand_Glu |
|
Chi-Square |
11,162 |
|
df |
2 |
|
Asymp. Sig. |
,004 |
Апостериорные сравнения выполним с помощью критерия Манна-Уитни. Для этого снова войдем в меню «Analyze», выберем раздел «NonparametricTests», подраздел «LegacyDialogs», в котором выберем позицию «2 IndependentSamples» (рисунок 25).
В открывшемся окне «Two-Independent-SamplesTests» оставим отмеченной позицию «Mann-Whitney U», и перенесем анализируемую и группирующую переменны в соответствующие поля окна (рисунок 28). Нажатие на кнопку «DefineGroups» позволит выбрать значения переменной «Category_BMI», которые будут сравниваться попарно. Сначала в соответствующие поля окна введем значения 1 и 2 для сравнения пациентов с нормальной и избыточной массой тела (рис. 29). Нажатие на кнопку «Continue» подтверждает выбор, а запуск анализа производится кнопкой «OK» (рисунок 28).
Рис. 28. Окно «Two-Independent-SamplesTests» программы SPSS 20.
Рис. 29. Выбор значений группирующей переменной в программе SPSS 20.
Результаты расчета критерия Манна-Уитни для выбранных значений группирующей переменной «1» и «2», соответствующих пациентам с нормальной массой тела и пациентам с избыточной массой тела, представлены в таблице 9. Уровень статистической значимости критерия указан в строке «Asymp. Sig. (2-tailed)» (0,611).
Таблица 9.
Результаты расчета критерия Манна-Уитни для переменной «Postprand_Glu» (значения группирующей переменной - 1 и 2).
|
Postprand_Glu |
|
Mann-Whitney U |
762,000 |
|
Wilcoxon W |
1938,000 |
|
Z |
-,509 |
|
Asymp. Sig. (2-tailed) |
,611 |
Попарные сравнения с помощью критерия Манна-Уитни необходимо повторить еще 2 раза, указывая с помощью кнопки «DefineGroups» другие сравниваемые группы - «1» и «3», «2» и «3». Напомним, что при интерпретации полученного значения p следует учитывать «эффект множественных сравнений» и пользоваться скорректированным уровнем статистической значимости (в данном случае p = 0,05).
Далее в статье описаны наиболее часто используемые практические приемы управления массивом исследовательских данных, позволяющие детальнее проанализировать результаты исследования. Наиболее часто управление массивом данных требуется для некоторых приемов нивелирования конфаундеров.
В клинической эпидемиологии чрезвычайно важным приемом анализа, постоянно используемым в исследовательской работе, является разбиение данных на группы и проведение анализа непосредственно внутри групп. В программе SPSS 20 в удобной форме заложена возможность разбиения данных на группы с последующим их анализом по-отдельности или селективное включение в анализ определенных групп наблюдений.
Для разделения данных на группы в SPSS 20 используется функция «Splitfile». Приведем пример разделения массива данных по переменной «Gender», имеющей значение «1» для мужчин и «2» для женщин.
Для разбиения данных на подгруппы требуется войти в меню «Data» и выбрать раздел «Splitfile» (рисунок 30).
Рис. 30. Выбор функции «Splitfile» меню «Data» программы SPSS 20.
В открывшемся окне «Splitfile» отметим позицию «Organizeoutputbygroups» и перенесем переменную «Gender» в поле «GroupsBasedon» и подтвердим выбор нажатием на кнопку «OK». По умолчанию в данном разделе была отмечена позиция «Analyzeallcases, donotcreategroups», согласно которой в анализ включаются все данные без исключения.
Теперь все дальнейшие действия (проверка «нормальности» распределения, однофакторный дисперсионный анализ, расчет критерия Краскела-Уоллиса и проч.) буду выполняться раздельно для подгруппы мужчин и подгруппы женщин. Подобное разделение может быть проведено в процессе стратификации данных - одного из методов борьбы с конфаундерами (например, подобное разбиение на группы может быть целесообразным в случае, когда количество включенных в исследование лиц одного пола в несколько раз больше количества лиц другого пола).
Чтобы отключить функцию разделения файла, необходимо снова войти в мен...
Подобные документы
Статистика в медицине как один из инструментов анализа экспериментальных данных и клинических наблюдений. Понятие количественных (числовых) данных. Выборки численных переменных. Виды критериев для независимых выборок, особенности их использования.
презентация [750,1 K], добавлен 16.10.2016Среднее арифметическое выборки, дисперсия, среднеквадратическое отклонение. Отбраковка по критерию Шовене. Правило "трех сигм". Оценка значимости различия средних значений двух выборок. Парный, множественные регрессионные анализы. Полный факторный анализ.
курсовая работа [267,9 K], добавлен 05.12.2012Основные положения факторного анализа. Принципы и модели дисперсионного анализа, его роль и место в статистических исследованиях. Особенности применения дисперсионного анализа при исследовании социально-экономических показателей по Республике Беларусь.
курсовая работа [762,4 K], добавлен 01.07.2014Критерии выбора программной реализации метода функционально-стоимостного анализа: сложность модели, организационное влияние, интеграция систем. Характеристика использования электронных таблиц, хранилища данных, специального программного обеспечения.
реферат [146,5 K], добавлен 25.11.2010Распределение результатов наблюдений. Неустойчивость параметрических методов отбраковки резко выделяющихся результатов наблюдений. Однородность двух независимых выборок. Критерий Крамера-Уэлча равенства математических ожиданий. Критерий Вилкоксона.
реферат [192,2 K], добавлен 19.01.2009Дискриминантный анализ как раздел многомерного статистического анализа. Дискриминантный анализ при нормальном законе распределения показателей. Применение дискриминантного анализа при наличии двух обучающих выборок. Решение задачи в системе statistika.
курсовая работа [140,3 K], добавлен 21.01.2011Применение дисперсионного анализа для исследования влияния качественных переменных на зависимую количественную переменную. Регрессионный анализ со статистической значимостью. Процесс проведения дисперсионного, кластерного, регрессионного анализов.
курсовая работа [498,5 K], добавлен 11.05.2022Понятие и содержание прибыли, ее разновидности, количественные показатели качества. Характеристика исследуемого предприятия, описание базы данных для автоматизации расчета количественных показателей качества прибыли, оценка эффективности использования.
курсовая работа [2,1 M], добавлен 26.01.2014Формирование матрицы исходных показателей по заработной плате в табличном процессоре SPSS for Windows ver.20.0.0. Кластерный анализ, шаги агломерации. Дендрограмма с использованием метода межгрупповых связей. Общий вид уравнения регрессии, сводка.
контрольная работа [95,4 K], добавлен 09.10.2013Машинное обучение и статистические методы анализа данных. Оценка точности прогнозирования. Предварительная обработка данных. Методы классификации, регрессии и анализа временных рядов. Методы ближайших соседей, опорных векторов, спрямляющего пространства.
контрольная работа [833,1 K], добавлен 04.09.2016Классификация видов экономического анализа и их содержание. Разбиение проблемы на составляющие, более доступные для изучения, и решение отдельных задач объединением. Общая характеристика функционально-стоимостного анализа. Тесты по заданной тематике.
курсовая работа [35,9 K], добавлен 16.12.2010Понятие экономического анализа как науки, его сущность, предмет, общая характеристика методов и социально-экономическая эффективность. Основные группы эконометрических методов анализа и обработки данных. Факторный анализ экономических данных предприятия.
реферат [44,7 K], добавлен 04.03.2010Статистика денежного обращения, инфляции и цен. Построение сводки и ряда распределения. Характеристика используемых статистических показателей. Расчет средних величин и показателей вариации, ошибок выборки. Корреляционный анализ количественных признаков.
контрольная работа [564,1 K], добавлен 13.09.2012Определение предела погашения постоянных затрат как основная задача информатика-экономиста. Базовые формулы маржинального (операционного) анализа. Характеристика трех классов задач маржинального анализа. Практические примеры применения алгоритмов анализа.
лабораторная работа [223,5 K], добавлен 13.12.2011Общие индексы, их элементы. Индексы переменного, постоянного составов и структурных сдвигов, их взаимосвязь. Агрегатные индексы количественных показателей. Статистика социальных услуг. Социальная поддержка семьи: сведения о фактических размерах пособий.
контрольная работа [671,3 K], добавлен 06.05.2015Составление матрицы парных коэффициентов корреляции. Построение уравнения регрессии, характеризующего зависимость цены от всех факторов. Проведение регрессионного анализа с помощью пакета SPSS. Экономическая интерпретация коэффициентов модели регрессии.
лабораторная работа [2,5 M], добавлен 27.09.2012- Использование корреляционно-регрессионного анализа для обработки экономических статистических данных
Роль корреляцонно-регрессионного анализа в обработке экономических данных. Корреляционно-регрессионный анализ и его возможности. Предпосылки корреляционного и регрессионного анализа. Пакет анализа Microsoft Excel.
курсовая работа [68,4 K], добавлен 11.06.2002 Порядок документального оформления результатов анализа. Особенности и цели применения способа сравнения в экономическом анализе. Принципы организации поиска и подсчета резервов: научность, комплексность и системность, оперативность, сбалансированность.
контрольная работа [11,2 K], добавлен 14.11.2010Обработка данных лесной промышленности: получение распределения случайной величины, проверка гипотезы, проведение дисперсионного, корреляционного и регрессивного анализа. Сущность и содержание, особенности применения теории принятия решений, ее принципы.
контрольная работа [314,2 K], добавлен 12.02.2013Корреляция, линейная и нелинейная регрессия. Дисперсионный, лискриминантный и кластерный анализ. Линейное программирование. Параметрические и непараметрические критерии. Определение существования взаимосвязи между рентабельностью и затратами на рекламу.
курсовая работа [502,6 K], добавлен 13.01.2015