Методика быстрого автоматизированного дискриминантного анализа ЭЭГ при различении в два класса

Методика ускоренных процедур дискриминантного анализа с использованием программного комплекса анализа и топографического картирования электрической активности мозга для проведения дискриминантного анализа. Применение линейной дискриминантной функции.

Рубрика Биология и естествознание
Вид статья
Язык русский
Дата добавления 28.08.2020
Размер файла 708,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Федеральное государственное бюджетное научное учреждение «Научный центр психического здоровья»

Институт высшей нервной деятельности и нейрофизиологии Российской академии наук

Акционерное общество «Научный центр персонализированной психиатрии»

Методика быстрого автоматизированного дискриминантного анализа ЭЭГ при различении в два класса

А.А. МИТРОФАНОВ, И.В. КИЧУК, М.Н. РУСАЛОВА,

С.В. ЧАУСОВА, Н.В. СОЛОВЬЕВА

Резюме

Авторы предлагают методику ускоренных процедур дискриминантного анализа с использованием Программного комплекса анализа и топографического картирования электрической активности мозга «Вгатзуз» для проведения дискриминантного анализа ЭЭГ в два класса. Программный комплекс позволяет рассматривать до 10 тысяч спектральных и прочих параметров ЭЭГ, которые могут потенциально выступить в качестве предикторов линейной дискриминантной функции. Предварительно параметры ЭЭГ могут быть приведены к приблизительно нормальному распределению. Предложены различные процедуры отбора параметров ЭЭГ, чтобы они удовлетворяли модели Фишера, а также процедуры поиска наиболее информативных параметров - кандидатов в предикторы. Были рассмотрены процедуры пошагового включения предикторов и процедуры перебора всех возможных комбинаций предикторов. Процедуры включают в себя поиск по нескольким критериям оценки наилучшей дискриминации на обучающих выборках. Особое внимание было уделено проблеме переобучения. Завышенные оценки чувствительности и специфичности, полученные на обучающих выборках, могут возникнуть как из-за отклонений от модели Фишера, так и множественного тестирования в процедуре перебора всех возможных комбинаций. Решение проблемы переобучения следует искать в подтверждении оценки качества различения на независимых выборках, как минимум одной. Также рассмотрены вопросы получения оценки обобщающей способности (способность к правильному предсказанию на независимых тестовых выборках) линейной дискриминантной функции, полученной в результате дискриминантного анализа. Методика позволяет без рутинных расчетов проверить множество вариантов дискриминантных функций или получить быстрые предварительные оценочные результаты, применив процедуру пошагового включения предикторов. Была получена в качестве примера формула линейной дискриминантной функции, включающая спектральные параметры ЭЭГ, для различения лиц импульсивного поведения и склонных к самоконтролю.

Ключевые слова: импульсивность, самоконтроль, электроэнцефалограмма, дискриминантный анализ, обобщающая способность.

The Development of the Automated Discriminant Analysis of the EEG to Distinguish Two Classes

Abstract

The authors propose a method of accelerated discriminant analysis procedures using the Software complex "Brainsys" to distinguish two classes. The software package allows us to consider up to 10 thousand spectral and other EEG parameters that can potentially act as predictors of a linear discriminant function (LDF). Provisionally, the EEG parameters can be transformed to an approximately normal distribution. Various procedures for selecting EEG parameters to satisfy the Fisher model are proposed, as well as procedures for searching for the most useful parameters -- candidates for predictors. Procedures for stepwise inclusion of predictors and procedures for testing all possible combinations of predictors were considered. Special attention was paid to the problem of overfitting. Overestimates obtained from training samples can occur due to deviations from the Fisher model or multiple testing. The solution to the problem of overfitting should be found in the confirmation of assessment of the quality of discrimination in independent samples, at least in one. We also consider the issues of obtaining an estimate of the generalization performance (the ability to correctly predict on independent test samples) of a LDF. The method allows checking many variants of discriminant functions without routine calculations or get quick preliminary estimation results by applying the procedure of stepwise inclusion of predictors. A formula of LDF was obtained, which included EEG spectral parameters for differentiating persons with impulsive behavior from persons prone to self-control.

Keywords: impulsivity, self-control, electroencephalogram, discriminant analysis, generalization performance.

Дискриминантный анализ используется как для получения правила классификации многомерных случайных величин на основании имеющихся данных (о принадлежности уже полученных значений к тому или иному классу), так и для определения переменных, которые вносят наибольший вклад в различение классов. Для дискриминации в два класса часто применяют линейную дискриминантную функцию (ЛДФ) Фишера, которая требует, чтобы многомерные случайные величины имели нормальное распределение и, соответственно, нормальности распределения каждой независимой случайной величины (предиктора), а также равенства ковариационных матриц. В этом случае линейная дискриминантная функция для дискриминации в два класса представлена следующим выражением в матричном виде (Айвазян и др.,1989; Андерсон, 1963; Ledermann, Lloyd, 1984):

где

y - скалярная величина результатов вычислений (дискриминантные баллы); если y > 0, то новое наблюдение следует отнести к первому классу, в противном случае - ко второму;

xT -- вектор-строка нового наблюдения, которое нужно отнести к одному из двух классов;

C-1 - обратная матрица к объединенной выборочной ковариационной матрице;

?, и ?2 -- векторы-столбцы выборочных средних предикторов;

Т -- знак транспонирования матрицы (вектора).

ЛДФ с p предикторами также можно представить в более удобном виде уравнения регрессии:

y = b0+ bixi + b2x2 +... + bpxp, (2)

где

y - скалярная величина результатов вычислений (дискриминантные баллы), причем, если y > 0, то наблюдение следует отнести к первому классу, если y < 0, то ко второму;

x4... xj, - p значений многомерного наблюдения;

b... Ьр - нестандартизованные коэффициенты ЛДФ;

b0 - константа (свободный член).

Дискриминантные коэффициенты могут быть представлены в нестандартизованной, как в уравнении (2), и стандартизованной форме. Если нас интересует относительный вклад переменной, то коэффициенты следует представлять в стандартизованной форме (Z-преобразование), которые получаются из соотношения (1) при нормировании исходных переменных таким образом, чтобы математическое ожидание равнялось нулю, а стандартное отклонение равнялось единице (Klecka, 1980).

Для простоты изложения в дальнейшем полагаем, что цена ошибочной классификации одинакова для обоих классов.

Центроид -- это точка с координатами в виде средних каждой многомерной переменной. Модель Фишера позволяет использовать (в частности, для теоретической оценки качества дискриминации) квадрат расстояния Махаланобиса D2 (Mahalanobis Squared Distance) между центроидами классов, который учитывает коррелированность переменных, имеющих разные единицы измерения и дисперсии (Klecka, 1980; Айвазян и др., 1989). Расстояние Махаланобиса D2 между центроидами многомерных выборок равно:

где

C--1 - матрица, обратная объединенной выборочной ковариационной матрице;

?, и ?2 -- векторы-столбцы выборочных средних предикторов;

Т -- знак транспонирования матрицы (вектора).

Чем больше расстояние Махаланобиса между центроидами классов, тем выше различение. Если известны параметры нормального распределения многомерных случайных величин, то случайная величина у для наблюдений, относящихся к первому классу, имеет нормальное распределение с математическим ожиданием D2/2 и стандартным отклонением D (дисперсией D2), а случайная величина y для наблюдений, относящихся ко второму классу, имеет нормальное распределение с математическим ожиданием -- D2/2 и также стандартным отклонением D. При этом ошибка классификации Err (если цены ошибочной классификации равны) для обоих классов равна 0(D/2) (Anderson, 1963), где Ф -- стандартная функция нормального распределения. Однако важно отметить, что нам известны только выборочные оценки параметров распределения, поэтому оценка качества дискриминации, основанная на выборочной оценке квадрата расстояния Махаланобиса, будет приблизительной.

В таблице 1 приведены ошибки различения Err в процентах в зависимости от квадрата расстояния Махаланобиса D2. Таким образом, расстояние Махаланобиса дает представление о возможной ошибке классификации в идеальном случае, т.е. о ее нижней границе, которая, однако, может быть приблизительной в случае, например, значительного отклонения распределения исходных данных от нормального. Из таблицы 1 видно, что если расстояние Махаланобиса меньше 2, то ошибка разделения в два класса будет недопустимо большой и правило дискриминации следует признать неудачным.

Таблица 1

Ошибка различения Err в процентах в зависимости от расстояния Махаланобиса D2 между центроидами выборок в модели Фишера

D2

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

Err, %

31

24

19

16

13

11

9

8

6.7

5.7

4.9

4.1

3.6

3.1

2.6

2.3

Вероятность ошибки классификации нового наблюдения E (т.е. вероятность принадлежности к другому классу) можно оценить при помощи формулы вероятности отклонения от центроида при нормальном распределении (при условии, что цены ошибочной классификации равны между собой):

E = Ф((|у| + D2/2)/D),

где

Ф -- стандартная функция нормального распределения;

у -- дискриминантные баллы;

D -- расстояние Махаланобиса между центроидами.

С геометрической точки зрения линейная дискриминантная функция является гиперплоскостью в p-мерном пространстве, которая делит пополам отрезок, соединяющий два центроида, и перпендикулярна ему (Kendall, Stuart, 1968). Она проведена оптимальным образом, так, чтобы минимизировать случаи ошибочной классификации (т.е. сделать минимальным количество случаев ошибочного отнесения к другому классу).

Задача дискриминации нового наблюдения объекта Х сводится к проверке простой гипотезы Н0 «Х принадлежит классу № 1» против простой альтернативной гипотезы H «Х принадлежит классу № 2». По итогам проверки на экзаменующей выборке получаем таблицу 2 (Айвазян и др., 1989).

Отметим следующие характеристики полученного правила (критерия) дискриминации объекта в класс № 1 (Там же):

1) Чувствительность равна доле случаев правильной классификации объектов класса № 1 a/(a + e). Ошибка первого рода а в проверке гипотезы (вероятность, что гипотеза H0 неправильно отвергнута, т.е. вероятность ложного отнесения к классу № 2) равна

б =1 a/(a + e). (4)

Специфичность равна доле случаев правильной классификации в класс № 2 f/(b+f) и представляет собой мощность критерия дискриминации. Ошибка второго рода (Р (вероятность того, что Н0 неправильно принята, т.е. вероятность ложного отнесения к классу № 1) в проверке гипотезы равна

в = 1 f/(b + f). (5)

Для правила (критерия) дискриминации объекта в класс № 2 характеристики аналогичны. Заметим, что ошибка первого рода в правиле дискриминации в класс № 1 становится ошибкой второго рода в правиле дискриминации в класс № 2, а ошибка второго рода, соответственно, ошибкой первого рода, поэтому доли случаев правильной классификации для обоих классов, т.е. чувствительность и специфичность, обозначим как «результативность» правила дискриминации для данного класса.

Итоги проверки на экзаменующей выборке

Таблица 2

Результат применения ЛДФ

Объект принадлежит классу № 1

Объект принадлежит классу № 2

Всего

Предсказан класс № 1 (принимается гипотеза Н0)

a

b

a + b

Предсказан класс № 2 (принимается гипотеза Н1)

e

f

e + f

Всего

a + e

b + f

N

В процессе дискриминантного анализа необходимо, как правило, получить ЛДФ с минимальной ошибкой первого рода а при допустимой мощности, т.е. достаточно малой ошибкой второго рода р, что эквивалентно получению ЛДФ с максимальной чувствительностью при допустимой специфичности.

Применение дискриминантного анализа при исследовании электрической активности мозга (количественных параметров электроэнцефалограммы -- ЭЭГ) сталкивается с рядом сложностей, связанных, в первую очередь, с очень большим числом (до 10 тысяч и даже более) спектральных и прочих параметров ЭЭГ, которые могут потенциально выступить в качестве предикторов в ЛДФ. Для отбора наиболее информативных переменных -- кандидатов в предикторы -- используется ряд методов, которые, однако, не дают полной гарантии нахождения оптимального набора предикторов.

Также необходимо отметить, что при дискриминантном анализе ЭЭГ параметры многомерного нормального распределения показателей ЭЭГ неизвестны и можно получить только их выборочные оценки. В этих условиях теоретически вычислить вероятность ошибочной дискриминации очень сложно (Anderson, 1963), а результаты носят случайный характер. Кроме того, распределение показателей ЭЭГ необходимо привести к нормальному, при этом само распределение может быть нормальным только приблизительно.

Самая сложная проблема -- выбор предикторов из множества независимых переменных, которых при исследовании ЭЭГ может быть несколько тысяч, что приводит к весьма длительным вычислениям, так как вычислительные мощности исследователя ограничены.

Допустим, что мы ищем дискриминантное правило для натурального логарифма мощности отведений стандартных ритмов дельта (0.5-4 Гц), тета (4-8 Гц), альфа (8-13 Гц), бета1 (13-20 Гц) и бета2 (20-30 Гц). Естественно включать в набор переменных в первую очередь те, у которых обнаружились значимые различия (Klecka, 1980). Однако переменные с незначимыми различиями, несмотря на предполагаемую малоинформативность, могут существенно улучшить ЛДФ (Айвазян и др., 1989), поэтому рационально по возможности включать все переменные, таким образом, число независимых переменных при 16 отведениях регистрации ЭЭГ будет равно 80.

Можно предложить различные процедуры отбора параметров ЭЭГ, например, отбирать параметры ЭЭГ с наибольшим уровнем значимости различий при сравнении по критерию Стьюдента (Лапин, Митрофанов, 2017). Самым популярным способом решения этой проблемы является использование метода пошагового включения предикторов (Klecka, 1980; Gevins, Remond, 1987).

Процедуру пошагового включения начинают с выбора наилучшей ЛДФ с одним предиктором и затем пошагово добавляют предиктор из множества исходных параметров ЭЭГ, который также дает наилучшее качество различения. Поиск прекращается, если качество различения перестало улучшаться.

В качестве меры различения (оценки качества) предложены разные величины: лямбда Уилкса, частное F-отношение, V-статистика Рао, межгрупповая

F-статистка, минимизация остаточной дисперсии, расстояние Махаланобиса (Klecka, 1980). При дискриминации в два класса, как в нашем случае, обычно рассматривают расстояние Махаланобиса между центроидами выборок; если оно перестает значимо увеличиваться при добавлении очередного предиктора, то поиск прекращают (Афифи, Эйзен, 1982).

Следует заметить, что расстояние Махаланобиса также неизвестно, а известна только его выборочная оценка, которая может весьма значительно отличаться от истинной. Можно предложить другую меру различения -- сумму оценок чувствительности и специфичности по обучающим выборкам, максимум которой считается наилучшей дискриминацией, что эквивалентно минимуму суммы ошибок а + р. У этой оценки есть недостаток -- возможно, что чувствительность или специфичность будут слишком малы. В этом случае может оказаться полезной оценка в виде наименьшего значения из чувствительности и специфичности для каждого наблюдения из обучающей выборки -- максимум этой оценки и будет означать наилучшую дискриминацию на данном шаге.

Возможно, что с практической точки зрения важна только максимальная чувствительность (или максимальная специфичность), тогда в качестве оценки качества различения можно указать только чувствительность (или только специфичность).

Таким образом, можно осуществлять процедуру пошагового включения для дискриминантного анализа в два класса по нескольким критериям оценки наилучшей дискриминации. С геометрической точки зрения мы ищем несколько гиперплоскостей, которые по-разному в зависимости от способа оценки качества разделяют две выборки.

Также может быть реализована процедура пошагового исключения, когда на каждом шаге выбрасывается самая малоинформативная переменная (Klecka, 1980). Первоначальное множество переменных, однако, не должно быть слишком велико, не более 200-300, чтобы вычисления не затягивались, да и точность вычислений при работе с обратными матрицами может не позволить работать с большим числом переменных.

Для решения проблемы выбора способа формирования подмножества наиболее информативных переменных можно предложить алгоритм, когда во множество переменных включаются все переменные, отобранные в процессе процедуры пошагового включения по нескольким критериям оценки наилучшей дискриминации.

Процедура пошагового отбора может не дать наилучшей комбинации предикторов. Чтобы найти наилучшее решение, необходимо проверить все возможные сочетания, начиная с 2, 3, 4 и т.д. предикторов, а этот алгоритм требует больших вычислительных и временных ресурсов (Ibid.). Если обычный компьютер за несколько дней может для нескольких тысяч исходных параметров ЭЭГ проверить все пары, тройки и даже четверки, то следующее увеличение числа переменных требует уже суперкомпьютеров.

Разные способы поиска могут компенсировать ошибки -- выбросы, ошибки и артефакты при регистрации ЭЭГ или в случае, когда данные не удовлетворяют математическим допущениям дискриминантного анализа.

Существенно, что нарушения допущений дискриминантного анализа могут не носить критического характера (Айвазян и др., 1989). У. Клекка отмечал: «Исследователю, главный интерес которого состоит в математической модели, способной хорошо предсказывать или служить разумным описанием реального мира, самым лучшим руководством является процент правильных классификаций. Если этот процент высок, то нарушения математических допущений не наносит большого ущерба» (Ibid.). Таким образом, при анализе ЭЭГ можно довольно сильно смягчать условия модели Фишера, т.е. нормальность распределения и равенства ковариационных матриц, поскольку важен конечный результат, который, однако, требует подтверждения на независимых наборах данных.

Однако оценка качества различения только по обучающим выборкам будет завышенной, потому что известны не истинные, а только выборочные параметры распределения и дискриминантная функция отражает свойства конкретной выборки более точно, чем свойства всей генеральной совокупности (Klecka, 1980). Если целью дискриминантного анализа является дискриминация новых наблюдений с достаточной точностью, то необходимо провести процедуру подтверждения (validation) прогностической способности (prediction ability) полученной линейной дискриминантной функции хотя бы на одной новой независимой выборке.

Способность к обобщению, или обобщающая способность (generalization performance), обучающего метода (в том числе дискриминантного анализа) определяется как способность к правильному предсказанию на независимых тестовых выборках (Hastie et al., 2009). «Переобучение» (overfitting), или слишком оптимистическая оценка по обучающим выборкам качества различения (предсказательной способности), возникает, в частности, из-за высокой сложности модели, когда слишком много предикторов, тогда на обучающих выборках можно получить чрезмерно хорошо подогнанную модель, которая учитывает ошибки измерения, погрешности модели и пр. в обучающей выборке, которые отсутствуют в другой новой независимой выборке. Для всякой задачи существует оптимальная сложность модели, при которой достигается наилучшее качество обобщения (Vapnik, 1998; Воронцов, 2004). При линейном дискриминантном анализе ЭЭГ оптимальную сложность модели определить затруднительно, но практика в использовании процедуры пошагового включения предикторов показывает, что число предикторов может колебаться, как правило, от 2 до 5-6, в редких случаях превышать 6, дальнейшее усложнение модели увеличивает ошибку классификации уже при тестировании на самих обучающих выборках.

Важно отметить, что на самом деле есть две отдельные цели, которые преследует исследователь при проведении дискриминантного анализа (Hastie et al., 2009):

1) выбор модели: оценка эффективности различных моделей для того, чтобы выбрать самую лучшую;

2) оценка модели: выбор окончательной модели, оценка ее ошибки прогнозирования (ошибки обобщения, generalization error) по новым данным.

Первая цель позволяет выявить те переменные, которые вносят наибольший вклад в различение двух выборок. Вторая цель дает правило дискриминации в два класса, пригодное, чтобы предсказать принадлежность нового наблюдения к одному из классов с достаточно большой вероятностью. При ограниченном объеме данных можно достичь только первой цели, что касается второй цели, то на подтверждение и тестирование обобщающей способности может потребоваться выделение значительной доли материала, по разным оценкам, от одной трети до половины.

Помимо метода разделения исходной выборки на обучающую и подтверждающую, предложены другие различные методы оценки обобщающей способности. Приведем наиболее известные и простые с точки зрения реализации. Если данных совсем немного, то самый простой и широко используемый метод оценки ошибки предсказания -- перекрестная проверка (cross-validation) (Hastie et al., 2009), в частности, скользящий экзамен (leave-one-out cross-validation, LOO CV), который в качестве экзаменующего наблюдения использует наблюдение, которое удаляется из исходной выборки, при этом ЛДФ пересчитывается вновь, после чего наблюдение возвращается в набор данных. Таким образом перебираются все исходные наблюдения и вычисляются ошибка предсказания и, соответственно, чувствительность и специфичность правила дискриминации. Оценка, полученная в результате скользящего экзамена, является несмещенной, но может иметь большую дисперсию (Ibid.). Однако скользящий экзамен не предотвращает эффекта переобучения из-за отклонения распределения переменных в данной выборке от распределения в генеральной совокупности, что подтвердилось в ходе различных исследований с применением данного программного обеспечения.

Если же мы имеем достаточно много исходных данных, то наилучшим подходом (Ibid.) будет разбиение случайным образом всего набора данных на обучающую, подтверждающую и тестирующую выборки, например, в пропорции 50%, 25%, 25%, хотя общепринятых рекомендаций по пропорциям нет. Обучающая выборка (training set) используется для получения ЛДФ; подтверждающая (validation set) -- для оценки ошибки предсказания для выбранной модели; тестирующая (test set) -- для оценки ошибки обобщающей способности. Тестирующая выборка должна использоваться только в самом конце анализа, иначе она покажет заниженную оценку ошибки обобщающей способности (generalization error) (Ibid.). Разбиение исходных данных на три выборки (обучающую, подтверждающую и тестирующую) близко к разбиению исходного материала только на две выборки (обучающую и подтверждающую), изложенную Клеккой (Klecka, 1980), и при достаточно большом объеме материала выглядит более предпочтительным. Что касается величины обучающей выборки, то трудно найти общее правило, сколько данных достаточно для дискриминации, это зависит, например, от сложности применяемой модели (Hastie et al., 2009) и других факторов.

Дискриминантный анализ имеет смысл проводить, если имеются значимые различия между средними многомерных выборок. Для выявления значимых различий между многомерными выборками может проводиться многомерный однофакторный дисперсионный анализ с использованием статистики лямбда Уилкса.

Обычно для дискриминантного анализа используют статистические пакеты SPSS, Statistica и пр. В них предусмотрены различные процедуры удаления малоинформативных или включение информативных переменных в пошаговых процедурах. Однако сам процесс загрузки исходных данных зачастую весьма трудоемок, так как исходные данные необходимо подготовить и загрузить в статистические пакеты, а также перебирать возможные варианты с различными параметрами по эвристическим алгоритмам.

В настоящей работе предложены другие подходы. В компьютерный Программный комплекс топографического картирования электрической активности мозга «Brainsys» включены программные средства, разработанные при финансировании ООО «Научно-медицинская фирма “Статокин”, в которых реализованы возможности пошагового включения/исключения предикторов, а также процедура перебора всех вариантов наборов предикторов (Klecka, 1980), как из всего множества независимых переменных, так и наиболее подходящих, например, тех, у которых уровень значимости различий достаточно мал и которые удовлетворяют условиям проведения дискриминантного анализа. При этом рутинная часть сильно сокращена и упрощена, исследователь не тратит время на подготовку данных в виде таблиц Excel, достаточно только указать папки, которые содержат обучающие, подтверждающие и тестовые выборки в виде ЭЭГ-файлов в формате EDF, метод и параметры, программа сама реализует процедуры дискриминантного анализа. Представленная компьютерная программа дискриминантного анализа может использоваться как самостоятельно, так и в составе Комплекса аппаратнопрограммного для топографического картирования электрической активности мозга «Нейро-КМ», который представляет собой компьютерный электроэнцефалограф с мощным пакетом статистической обработки ЭЭГ и других биосигналов для научных исследований.

Для дискриминантного анализа могут отбираться те параметры ЭЭГ, которые не имеют значимых различий дисперсии по критерию Фишера (р < 0.05 или р < 0.01 -- на усмотрение исследователя), а также приближены к распределению Гаусса, хотя эти требования не являются критичными и допускаются некоторые отклонения (Ibid.). Для каждого из отведений стандартной системы отведений 10-20 для частотных полос с шагом 1, 1.5 и 2 Гц и для стандартных частотных диапазонов (дельта, тета, альфа, бета1 и бета2) можно рассчитать и включить в исходный набор параметров следующие параметры ЭЭГ, имеющие приблизительно нормальное распределение (Бендат, Пирсол, 1974; Gevins, Remond, 1987; Нюер, 1992):

1) натуральный логарифм мощности Power на заданной частотной полосе, сокращенно Ln(P):

Ln(P) = Ln(Power),

где Power - спектральная мощность на данном отведении и частотной полосе (пример: (Ln(P)(O2)8-13) -- натуральный логарифм спектральной мощности альфа-ритма (8-13 Гц) в отведении O2);

2) нормализованная (приведенная к нормальному распределению) относительная мощность LRP, вычисляемая по формуле:

LRP = Ln(Power(%)/(100 - Power(%))),

где Power (%) - относительная мощность данного стандартного ритма в процентах от мощности всей частотной полосы 0.5-30 Гц (пример: (LRP(O2)8-13) -- параметр, вычисляемый по формуле: С = Ln(S/(100 -- S)), где S -- отношение мощности альфа-ритма (8-13 Гц) к суммарной мощности биопотенциалов в диапазоне 0.5-30 Гц в процентах на отведении F8);

3) нормализованная когерентность LCoh:

LCoh = Ln(Coh2/(1 -- Coh2)),

где Coh2 - квадрат модуля когерентности (КМК) (пример: LCoh(F3- Fp1)0.5-4 - параметр, вычисляемый по формуле: LCoh = Ln(Coh2/(100 -- Coh2)), где Coh2 - квадрат модуля когерентности дельта-ритма (0.5-4 Гц) между отведениями F3-Fp1);

4) межполушарная асимметрия мощности Asym:

Asym = Ln(Power(Right)/Power(Left)),

автоматизированный дискриминантный анализ

где Power(Right) и Power(Left) - мощность справа и слева соответственно для заданного отведения и частотной полосы (пример: Asym(02/01)4-8 - логарифм отношения мощности тета-ритма на отведении O2 к мощности тета-ритма на симметричном отведении O1);

5) натуральный логарифм канонограмм стандартных ритмов Ln(P(B1)/P(B2)), где P(B1) и P(B2) -- мощность на частотных полосах B1 и B2 соответственно (пример: (Ln(P(8-13)/P(0.5-4))T4) -- натуральный логарифм отношения спектральной мощности альфа-ритма к спектральной мощности дельта-ритма в отведении Т4).

Также можно включать и другие характеристики ЭЭГ, приведенные к нормальному распределению, например, действительную и мнимую части когерентности, их асимметрию, отношение мощностей ритмов с шагом 1 Гц и т.д.

Нормальность распределения также при необходимости можно проверить по критерию Колмогорова-Смирнова и удалить переменные, которые ему не удовлетворяют.

Процедура перебора вариантов заключается в том, что после предварительного отбора по тем или иным правилам независимых переменных, среди которых будем искать предикторы, проверяем все возможные их сочетания, начиная с 2, 3, 4 и т.д. (Klecka, 1980), и таким образом находим наилучшие решения. Полученные линейные дискриминантные функции могут тестироваться на обучающей выборке (в необходимых случаях) методом скользящего экзамена, на подтверждающих, тестовых и других контрольных выборках (Митрофанов и др., 2019).

В процессе работы те результаты, ошибка которых не превышает заданный уровень значимости а и р для экзаменационной и обучающей выборок, выводятся в таблицу Excel. Если же удовлетворительных результатов не найдено, то выводится максимально правильный результат с точки зрения различных критериев поиска (квадрат расстояния Махаланобиса, минимальная сумма ошибок а и р и пр.).

Если ставится цель оценки обобщающей способности и если позволяет количество исходных данных, то возможно по итогам анализа протестировать полученные ЛДФ на тестовых выборках.

ЛДФ также можно включить в виде экспертной системы в состав программного обеспечения и проводить дискриминацию как отдельных файлов ЭЭГ-записей, так и всех ЭЭГ-файлов в отдельных папках с выводом результатов классификации и описательной статистики в текстовой файл.

Время вычислений в процедуре перебора всех возможных комбинаций предикторов линейно зависит от объемов экзаменующих выборок, в большей степени - от числа предикторов п и количества исходных независимых переменных т, практически оно пропорционально числу сочетаний из п предикторов по т независимым переменным С". Допустим, для поиска ЛДФ методом перебора всех вариантов для четырех предикторов на исходном множестве в 80 независимых переменных (если рассматривать 16 отведений для пяти стандартных ритмов) при объеме экзаменующей выборки, равном 10, необходимо перебрать 1 581 580 вариантов, на что уходит примерно до минуты на довольно среднем по производительности компьютере, для пяти предикторов из 80, соответственно, около 10 минут (24 млн вариантов), для 6 - примерно 2 часа (300 млн) и т.д.

В рассматриваемом программном комплексе число исходных независимых переменных может быть до 10 000. Если число независимых переменных близко к максимуму, т.е. около 10 000, то для перебора всех вариантов ЛДФ с двумя предикторами может потребоваться несколько часов, для ЛДФ с тремя предикторами -- несколько суток и т.д. В некоторых случаях, когда для хорошего различения достаточно двух-трех предикторов, это вполне допустимо. Однако в большинстве случаев следует отобрать несколько сот наиболее подходящих кандидатов в предикторы дискриминантных функций, среди которых уже можно осуществлять поиск методом перебора. В процессе вычислений для отбрасывания заведомо неудачных и повторяющихся вариантов, а также малоинформативных переменных в программном комплексе «Bramsys» реализованы следующие процедуры:

1) исключение независимых переменных, у которых незначимо различаются средние, так как вероятность того, что они малоинформативны, выше, чем у переменных со значимыми различиями (Айвазян и др., 1989);

2) исключение независимых переменных, у которых в одномерном случае, т.е. при ЛДФ с одним предиктором, процент правильно угаданных наблюдений (чувствительность) довольно мал, например, ниже 50%;

3) анализ на выбросы среди наблюдений по F-критерию (Афифи, Эйзен, 1982);

4) анализ равенства средних многомерных нормальных выборок по уровню значимости лямбда Уилкса (Рао, 1973) или по критерию Хотеллинга (Афифи, Эйзен, 1982) с отбрасыванием вариантов комбинаций переменных с незначимыми различиями;

5) анализ множественного коэффициента корреляции для выявления переменных, которые являются линейной комбинацией других переменных;

6) F-удаление или F-включение малоинформативных переменных (Рао, 1973; Афифи, Эйзен, 1982);

7) возможность исключения из рассмотрения набора предикторов, если он уже включает набор предикторов успешных ЛДФ на предыдущих шагах.

Помимо метода перебора всех вариантов в программном комплексе «Brainsys» реализована упомянутая процедура пошагового включения предикторов, т.е. последовательного отбора наиболее полезных переменных (Rlecka, 1980). Процедура пошагового включения предикторов позволяет очень быстро (за минуты) по сравнению с процедурой перебора всех вариантов получить результат, при этом исходный набор независимых переменных может быть размером до 10 000, но этот результат может оказаться не самым лучшим. Тем не менее этот метод весьма эффективен в ряде случаев, позволяет быстро получить удовлетворительный результат и оценить перспективность применения дискриминантного анализа для различения двух данных классов. В исходный набор можно включать практически все возможные параметры ЭЭГ, имеющие приблизительно нормальное распределение и не имеющие значимых различий в дисперсии по критерию Фишера.

В программном комплексе также реализована процедура дискриминации в три класса, которая может быть проведена, если известны ЛДФ для всех возможных пар классов (Ledermann, Lloyd, 1984). Пусть для трех классов A, B, C известны ЛДФ^З), ЛДФ^^) и ЛДФ^^). Новое наблюдение относим к классу A, если ЛДФ^З) и ЛДФ^^) одновременно отнесли это наблюдение к классу A.

Однако закономерно возникает вопрос, насколько используемые методики и ПО адекватны, не могут ли они дать ложноположительные или ложноотрицательные результаты. Для ответа на этот вопрос были проведены тестовые испытания на однородных выборках из реальных ЭЭГ лиц без зафиксированных нервно-психических расстройств.

Для тестирования были отобраны случайным образом две выборки ЭЭГ, каждая по 100 человек без нервно-психических отклонений, имитирующие два разных класса. Каждая выборка была, в свою очередь, согласно рекомендациям Клекки (Klecka, 1980), разбита на две выборки по 50 человек -- обучающую и подтверждающую. Цель эксперимента на реальных данных состояла в проверке, не даст ли эта методика ложноположительного результата в виде ЛДФ с высокой чувствительностью и специфичностью. Для пошаговой процедуры по вышеперечисленным критериям были отобраны 10 000 параметров ЭЭГ с самыми большими различиями в убывающем порядке. Ни один из критериев поиска не дал ложноположительного результата с высокой чувствительностью и специфичностью, значения которых не превышали 66%, но при этом следует отметить, что процент правильно угаданных случаев на обучающих выборках рос по мере усложнения модели до 90%, но подтверждающие выборки давали реальный, т.е. очень низкий, результат, что являлось эффективным фильтром, отсекающим ЛДФ с переобучением. Далее был использован метод перебора всех возможных комбинаций, который показал аналогичные результаты, т.е. не было найдено правило различения двух этих выборок с высокими значениями чувствительности и специфичности. Таким образом, подтверждено, что даже методика разбиения исходных данных на два набора не приведет к ложноположительным результатам в случае сравнения двух классов с одинаковым распределением. Следует ожидать, что при использовании различных усложненных алгоритмов дополнительную гарантию отсутствия переобучения может дать разбиение данных на три набора - обучающий, подтверждающий и тестирующий.

Также предусмотрена возможность имитационного моделирования данных. Имитационное моделирование (симулирование) исходных данных позволяет дополнительно верифицировать работоспособность алгоритмов и ПО, предоставляет пользователю возможность оценить качество алгоритмов и оптимальность сложности модели, а также в исследовательских и обучающих целях. Данные симулируются в виде многомерных нормально распределенных случайных величин, принадлежащим двум различным классам, причем в двух режимах. Первый режим симулирует произвольные нормально распределенные многомерные случайные величины с заданным расстоянием Махаланобиса. Второй режим позволяет симулировать нормально распределенные переменные с реальными параметрами распределения (средним и стандартным отклонением) показателей ЭЭГ. При этом учитываются корреляционные связи: в первом режиме линейные корреляции между переменными задаются случайным образом, во втором режиме берутся выборочные оценки коэффициента корреляции между реальными данными.

Рассмотрим пример дискриминации лиц с самоконтролем и импульсивных. Линейная дискриминантная формула (ЛДФ) была получена в результате дискриминантного анализа двух выборок ЭЭГ здоровых испытуемых от 17 до 45 лет. Для получения формулы были использованы записи ЭЭГ 104 испытуемых (из них 61 импульсивных и 43 лиц с самоконтролем, верифицированных на свойство импульсивность/самоконтроль при помощи психологических тестов). У всех испытуемых регистрировали ЭЭГ на установке, состоящей из 21-канального усилителя аппаратно-программного комплекса для топографического картирования электрической активности мозга «Нейро- КМ» (Научно-медицинской фирмы «Статокин») и персонального компьютера. Регистрацию биопотенциалов осуществляли по международной схеме 1020% от 16 отведений: Fp1, Fp2, F3, F4, F7, F8, СЗ, С4, РЗ, Р4, ТЗ, Т4, Т5, Т6, О1, О2. В качестве референтного использовали объединенный ушной электрод. Спектральный анализ ЭЭГ проводили с помощью программных средств АПК «Нейро-КМ». Эпоха анализа ЭЭГ составляла 1 с, частота опроса -- 200 Гц. Полоса пропускания -- 0.5-30 Гц.

Обработка данных ЭЭГ состояла в расчете спектров мощности и когерентности ЭЭГ в стандартной полосе частот (дельта, тета, альфа, бета1, бета2), а также сопоставлении их по процентному содержанию от всего диапазона частот.

Перед дискриминантным анализом полезно оценить, есть ли значимые различия между выборками. Картирование уровня значимости различий мощности стандартных ритмов обучающих выборок по критерию Стьюдента (рисунок 1) показало, что выборочные средние логарифма мощности группы «Самоконтроль» превышают выборочные средние логарифма мощность группы «Импульсивность» по всем отведениям альфа и большинству отведений бета1 даже после применения весьма жесткой поправки Бонферрони на множественность сравнений. Столь большие различия делают весьма вероятной успешность решения задачи дискриминации, т.е. классификации многомерных случайных величин на основании уже имеющихся данных.

Частотные полосы 1 Гц, 1.5 Гц и 2 Гц не рассматривались, так как картирование показало большие значимые различия уже для стандартных ритмов.

Алгоритм действий при дискриминантном анализе следующий. Так как исходных данных немного, то воспользуемся рекомендацией Клекка (Кіеска 1980) и разобьем случайным образом выборки на обучающую и экзаменующую (подтверждающую). Из исходных ЭЭГ-файлов, очищенных от артефактов, случайным образом формируются обучающие выборки размером 22 человека для первого класса «Самоконтроль» и 31 человек для второго класса «Импульсивность», а также две экзаменующие выборки для этих же классов в количестве 21 и 30 человек соответственно. Таким образом, на экзаменующие выборки выделено почти половина материала, так как именно тестирование на экзаменующих выборках критически важно для оценки качества найденного правила дискриминации.

Сначала попробуем использовать процедуру пошагового включения предикторов, а затем сравним ее с процедурой перебора всех возможных комбинаций.

Рисунок 1

Сравнение средних значений логарифма мощности (Ln(Power)) двух независимых выборок

Примечание. N1 -- выборка из класса «Самоконтроль», N2 -- выборка из класса «Импульсивность». Картируется уровень значимости p. Положительный знак уровня значимости указывает, что среднее выборки N1 больше среднего выборки N2. Отрицательный знак уровня значимости указывает, что среднее выборки N1 меньше среднего выборки N2.

Процедура пошагового включения предикторов ЛДФ включала в себя поиск по нескольким критериям оценки наилучшей дискриминации на обучающих выборках. Предварительно были отобраны все показатели ЭЭГ для стандартных ритмов, у которых дисперсии не имели значимых различий по критерию Фишера < 0.01) и которые имеют близкое к нормальному распределение. Было найдено 990 таких показателей. По завершении каждого шага результат проверялся скользящим экзаменом и на подтверждающей выборке. Была получена ЛДФ для трех предикторов с чувствительностью 95% и специфичностью 93% и расстоянием Махаланобиса между центроидами 10.8:

y = 4.1(Ln(P)(O1)8-13) + 2.0(LCoh(F3-Fp1)4-8) + 0.67(Ln(P)(O2)8-13) 25.1

При значении показателя у > 0 поведенческую реакцию испытуемого диагностируют как склонность к самоконтролю, а при значении показателя у < 0 -- к импульсивному поведению.

(Ьп(Р)(01)8-13) -- натуральный логарифм спектральной мощности альфа-ритма (8-13 Гц) в отведении 01;

(ЬСоЬ^3^р1)4-8) - нормализованная когерентность между отведениями F3-Fp1 тета-ритма (4-8 Гц);

(Ln(P)(02)8-13) -- натуральный логарифм спектральной мощности альфа-ритма (8-13 Гц) в отведении 01.

Уровень значимости для лямбда Уилкса p < 5.4Е-14. Стандартизованные коэффициенты ЛДФ для различения в классы «Самоконтроль» и «Импульсивность», полученной процедурой пошагового включения (таблица 3), показывают вклад каждого предиктора. Теоретическая оценка ошибки классификации по выборочному значению расстояния Махаланобиса (таблица 1) не противоречит полученным результатам.

Рассмотрим вариант поиска ЛДФ при помощи процедуры перебора всех возможных комбинаций переменных.

Предварительная подготовка данных включала в себя поиск наиболее подходящих независимых переменных со значимостью различий между средними p < 0.01 по критерию Стьюдента (чтобы сократить число возможных комбинаций), а также значимостью различий между дисперсиями p < 0.01 по критерию Фишера.

В программе есть возможность поиска параметров, имеющих наибольшие различия, из которых и составляется упорядоченный по возрастанию уровня значимости список независимых переменных (кандидатов в предикторы) для дискриминантного анализа. Всего было найдено 268 независимых переменных с уровнем значимости различий p < 0.01 (таблица 4).

Таблица 3

Стандартизованные коэффициенты ЛДФ для различения в классы «Самоконтроль» и «Импульсивность», полученной процедурой пошагового включения

Параметр

Стандартизованные коэффициенты

^п(Р)(01)8-13)

0.51

(1ЈоЬ^3^р1)4-8)

0.39

^п(Р)(02)8-13)

0.10

При поиске ЛДФ были заданы пороги 95%-й чувствительности и специфичности для обучающих и экзаменующих выборок, удовлетворяющие условиям поиска, выводились в таблицу Excel. Также проводилась процедура скользящего экзамена.

Были найдены несколько ЛДФ, среди которых наилучший результат с чувствительностью и специфичностью 95% для скользящего экзамена и подтверждающих выборок обоих классов дала следующая ЛДФ:

y = (Ln(P)(O1)8-13) + 0.15x(Ln(P(8-13)/P(0.5-4))T4) - 0.61x(LRP(F8)20-30) - 6.1,

где

(Ln(P)(O1)8-13) -- натуральный логарифм спектральной мощности альфа-ритма в отведении O1;

(Ln(P(8-13)/P(0.5-4))T4) -- натуральный логарифм отношения спектральной мощности альфа-ритма к спектральной мощности дельта-ритма в отведении Т4;

(LRP(F8)20-30) -- параметр, вычисляемый по формуле: С = Ln(S/(100 -- S)) где S - отношение мощности бета2-ритма к суммарной мощности биопотенциалов в диапазоне 0.5-30 Гц в процентах на отведении F8.

При значении показателя y > 0 поведенческую реакцию испытуемого диагностируют как склонность к самоконтролю, а при значении показателя y < 0 -- к импульсивному поведению.

Уровень значимости для лямбда Уилкса p < 1.1E-11. Расстояние Махала- нобиса равно 7.85, при этом значении теоретическая ошибка классификации равна примерно 8% (таблица 1), т.е. теоретически чувствительность и специфичность не могут превышать 92%, если не учитывать факт, что это выборочная оценка Стандартизованные коэффициенты ЛДФ (таблица 5) свидетельствуют о достаточно хорошей информативности предикторов. Наибольший вклад вносит натуральный логарифм спектральной мощности альфа-ритма в отведении 01.

Таблица 4

Уровень значимости наиболее отличающихся параметров по критерию Стьюдента при сравнении группы

Параметр

Отведение

P

1

Ln(P)

(O1-AA)

7.5E-12

2

Ln(P)

(O2-AA)

9.2E-12

3

Ln(P)

(Fp2-AA)

2.5E-11

4

Ln(P(8-13)/P(0.5-4))

(Fp2-AA)

5.6E-11

5

Ln(P(8-13)/P(0.5-4))

(F3-AA)

1.1E-10

6

Ln(P)

(T3-AA)

1,2E-10

7

Ln(P(8-13)/P(0.5-4))

(Fp1-AA)

1.2E-10

8

Ln(P(8-13)/P(0.5-4))

(F4-AA)

3.9E-10

9

Ln(P)

(Fp1-AA)

5,6E-10

10

Ln(P(8-13)/P(0.5-4))

(C3-AA)

6.4E-10

267

LCoh

(C3-F7)

0.0095

268

LCoh

(F3-T5)

0.0098

Дальнейшее увеличение числа предикторов до 4 и более результаты не улучшило.

Таким образом, объем материала позволил путем разбиения исходных данных на обучающие и подтверждающие выборки и использования метода пошагового включения предикторов достичь первой цели - выбора наилучшей модели для данной выборки, выявить параметры ЭЭГ, которые в наибольшей степени вносят вклад в различение импульсивных и склонных к самоконтролю лиц, получить приблизительную оценку качества различения, но не позволил достичь второй цели - получить оценку обобщающей способности ЛДФ на тестовой выборке, которую, однако, нетрудно провести на новых данных.

Однако интересующий исследователя список параметров ЭЭГ, вносящих вклад в различение, не исчерпывается приведенными в найденной ЛДФ. При использовании процедуры перебора всех возможных комбинаций предикторов при заданных порогах 95%-й чувствительности и специфичности для обучающих и экзаменующих выборок было найдено 229 ЛДФ, в которых фигурирует 141 предиктор как со знаком «плюс», так и со знаком «минус». В таблице 6 представлены наиболее часто встречающиеся предикторы (более чем 1%) в обнаруженных ЛДФ, что свидетельствует об их информативности при отнесении к тому или иному классу. Знак «плюс» показывает, что увеличение данного параметра увеличивает вероятность отнесения к группе «Самоконтроль», а знак «минус» - что увеличение данного параметра увеличивает вероятность отнесения к группе «Импульсивность». Следует ожидать, что чем чаще встречается предиктор в формулах ЛДФ, тем более значительную роль он играет в принадлежности к одному из двух классов.

Как видно из таблицы 6, для самоконтрольных лиц наиболее часто встречаемыми предикторами являются:

1) LCoh(T3-C3)0.5-4 (68 случаев) -- нормализованная когерентность между отведениями Т3-С3 в дельта-диапазоне;

2) Ln(P)(01)8-13 (52 случая) -- логарифм мощности альфа на отведении 01;

3) Ln(P)(02)8-13 (49 случаев) -- логарифм мощности альфа на отведении 02;

Таблица 5

Стандартизованные коэффициенты ЛДФ для различения в классы «Самоконтроль» и «Импульсивность»

Параметр

Стандартизованные коэффициенты

(Ln(P)(O1)8-13)

0.61

^п(Р(8-13)/Р(0.5-4))_Т4)

0.09

(LRP(F8)20-30)

-0.31

Таблица 6

Частота встречаемости предикторов в ЛДФ, найденных методом перебора всех возможных комбинаций, для дискриминации в классы «Самоконтроль» и «Импульсивность» с чувствительностью и специфичностью не менее 95%

Предиктор

Найдено

%

Самоконтроль (со знаком «+»)

Импульсивность (со знаком «--»)

1

ВЗоЬ(Г3-С3)0.5-4

68

29.7%

68

0

2

Ьі(Р)(01)8-13

52

22.7%

52

0

3

Ьі(Р)(02)8-13

49

21.4%

49

0

4

ВЗоЬ^3^р1)0.5-4

44

19.2%

44

0

5

LRP(F8)20-30

37

16.2%

0

37

6

Ьі(Р)(Т6)4-8

36

15.7%

36

0

7

ВЗоЬ^3^р1)4-8

20

8.7%

20

0

8

Ьі(Р)(О2)13-20

19

8.3%

19

0

9

Ьі(Р)(Т3)8-13

17

7.4%

17

0

10

Ьі(Р)(С3)8-13

16

7.0%

16

0

11

Ьі(Р)(02)4-8

16

7.0%

16

0

12

LRP(O1)13-20

16

7.0%

0

16

13

Ьі(Р)(С4)8-13

13

5.7%

13

0

14

Ьі(Р)^р2)8-13

13

5.7%

13

0

15

Ьі(Р)(01)4-8

11

4.8%

11

0

16

Ьі(Р(8-13)/Р(13-20))_01

9

3.9%

9

0

17

Ьі(Р)(Т6)8-13

9

3.9%

9

0

18

Ln(Р(8-13)/Р(0.5-4))_О2

7

3.1%

7

0

19

Ln(P)(T3)13-20

7

3.1%

7

0

20

Ln(Р(8-13)/P(0.5-4))_F3

7

3.1%

7

0

21

LRP(O1)0.5-4

6

2.6%

0

6

22

LCoh(T6-F4)0.5-4

5

2.2%

0

5

23

Ln(P(Альфа)/

Р(Бета1 + Бета2))_01

5

2.2%

5

0

24

Ln(P(Альфа)/ Р(Бета1 +Бета2))_Т3

5

2.2%

5

0

25

Ln(Р(8-13)/Р(0.5-4))_01

5

2.2%

5

0

26

Ln(P)(F4)8-13

5

2.2%

5

0

27

LRP(O1)8-13

4

1.7%

4

0

4) LCoh(F3-Fp1)0.5-4 (44 случая) -- нормализованная когерентность между отведениями F3-Fp1 в дельта-диапазоне.

Для импульсивных лиц характерны следующие предикторы:

LRP(F8)20-30 (37 случаев) -- нормализованная относительная мощность бета2 в отведении F8.

Таким образом, когерентность в дельта-диапазоне в передних и передневисочных отделах левого полушария, а также мощность в альфа-полосе в затылочных отделах обоих полушарий в большей мере характерны для лиц, склонных к самоконтролю, тогда как для импульсивных лиц - мощность высоких частот в передних отделах правого полушария.

Интересные результаты показало имитационное моделирование. При имитационном моделировании данных во втором режиме (т.е. симуляции многомерных нормально распределенных величин и реальных выборочных средних, дисперсиях и ковариационной матрице для обоих классов) дискриминантного анализа для различения импульсивных лиц и лиц с самоконтролем были получены результаты, аналогичные результатам, полученным на реальных данных, но с более высокими чувствительностью и специфичностью, что можно объяснить возможными отклонениями реальных данных от нормального распределения. При этом полученная формула ЛДФ немного хуже, чем формула, полученная на реальных данных, но очень хорошо (с чувствительностью 93%, специфичностью 87%) дискриминирует исходные данные, что наталкивает на мысль, что при помощи имитационного моделирования, зная только выборочные средние и дисперсии переменных, а также корреляционную матрицу, вполне можно получать работающие формулы ЛДФ.

Подводя итоги, можно предложить следующий порядок проведения дискриминантного анализа для двух классов с использованием программного комплекса «Bramsys».

1. В зависимости от цели исследования и объема исходных данных решается вопрос, на сколько выборок делятся исходные данные.

В худшем случае (при очень малом объеме данных) можно использовать только обучающие выборки и скользящий экзамен, но тогда мы получим результаты (переменные, которые больше всего влияют на различение и их число) только для данной выборки с оценкой качества при помощи только скользящего экзамена, а также оценить уровень значимости различий двух многомерных выборок по лямбда-критерию Уилкса (который эквивалентен для двух классов критерию Хотеллинга) и перспективность более углубленного дискриминантного анализа по расстоянию Махаланобиса, но никак не сможем оценить риск переобучения.

...

Подобные документы

  • Проведение гибридологического анализа на примере гороха. Период цветения и методика скрещивания. Методика проведения скрещивания у злаковых (пшеницы и ржи). Оценка плодовитости растений по пыльцевым зернам. Генетический полиморфизм популяций растений.

    практическая работа [552,1 K], добавлен 05.12.2013

  • Суть учения В.И. Вернадского о биосфере. Представление об организованности биосферы. Метод анализа дерева ошибок. Методы оценки вероятности возникновения аварии. Модель анализа риска аварийной ситуации. Факторы опасности, обусловленные ошибками персонала.

    контрольная работа [39,0 K], добавлен 09.10.2012

  • Сущность понятия "антропометрия". Соматометрия, краниометрия, остеометрия. Особенности проведения регрессионного анализа. Типовая схема измерительной системы. Линейная, бинарная и множественная логистическая регрессия. Пробит-анализ, весовая оценка.

    презентация [67,3 K], добавлен 15.05.2016

  • Основные этапы обработки зрительной информации. Методы исследования функции нервной системы. Тестирование зрительной функции млекопитающих с помощью оптического картирования коры головного мозга по внутреннему сигналу. Схема экспериментальной установки.

    курсовая работа [6,0 M], добавлен 17.10.2012

  • Выделение цереброзидов и сульфатидов головного мозга. Количественное определение фракций по углеводному компоненту. Удельная радиоактивность отдельных фракций цереброзидов и сульфатидов. Препаративное получение сфингозина. Метод периодатного окисления.

    доклад [164,8 K], добавлен 25.10.2014

  • Изготовление микропланшетов. Определение спектра поглощения. Электрофоретическое разделение нуклеиновых кислот в образцах ПЦР-смеси после амплификации. Протокол полимеразной цепной реакции с использованием TaqMan. Система детекции результатов анализа.

    дипломная работа [873,4 K], добавлен 15.12.2008

  • Фаунистический комплекс как единица зоогеографического анализа рыб. Распределение видов по фаунистическим комплексам на основании взаимоотношений с окружающей средой. Формирование байкальского фаунистического комплекса рыб, состав ихтиофауны Байкала.

    реферат [20,1 K], добавлен 03.06.2010

  • Состав белого вещества головного мозга. Строение и функции ствола. Анатомические особенности мозжечка. Функции большого мозга. Вертикальная и горизонтальная организация коры. Аналитико-синтетическая деятельность коры полушарий. Лимбическая система мозга.

    реферат [38,9 K], добавлен 10.07.2011

  • Развитие головного мозга человека. Функции отделов мозга: лобной, теменной, затылочной, височной доли, островка. Общий обзор головного мозга, строение и функции ромбовидного, среднего и промежуточного мозга. Морфологические особенности конечного мозга.

    реферат [33,4 K], добавлен 03.09.2014

  • Разнообразие Y-хромосомы у однофамильцев. Становление украинских фамилий. Лингвистическая характеристика и этнические маркёры украинских фамилий. Примеры применения методик с использованием фамилий как квазигенетических маркёров для анализа популяции.

    курсовая работа [3,4 M], добавлен 23.05.2012

  • Строение ствола мозга, основные функции его тонических рефлексов. Особенности функционирования продолговатого мозга. Расположение варолиева моста, анализ его функций. Ретикулярная формация мозга. Физиология среднего и промежуточного мозга, мозжечка.

    презентация [751,7 K], добавлен 09.10.2016

  • Электрофорез как один из наиболее важных методов для разделения и анализа компонентов веществ в химии, биохимии и молекулярной биологии. Электрофорез белков в полиакриламидном и агарозном геле. Оборудование для проведения капиллярного электрофореза.

    реферат [25,5 K], добавлен 31.08.2014

  • Обзор особенностей получения и анализа информации об изменениях условий внешней и внутренней среды нервной системой. Исследование внешнего и внутреннего строения глаза. Функции рецепторной, периферической и проводниковой частей зрительного анализатора.

    презентация [4,8 M], добавлен 12.03.2013

  • Влияние ферментов на возможность и скорость проведения различных манипуляций с ДНК. Общие свойства нуклеаз, их классификация и отличительные черты. Эндонуклеазы рестрикции, их роль в различении собственной ДНК от чужеродной. РНК-зависимые ДНК-полимеразы.

    контрольная работа [24,2 K], добавлен 27.07.2009

  • Физико-химические свойства полиэтиленгликолей. Сывороточные белки крови, их классификация и функции. Общие и модифицированные липопротеины. Экспериментальное измерение рентгенограмм рассеяния МУРР от анализируемых образцов, его результаты и оценка.

    курсовая работа [227,6 K], добавлен 22.04.2012

  • Характерные частоты мембранных движений. Модели, использующиеся для анализа поступательного движения молекул внутри мембранного бислоя. Поступательное движение липидных и белковых молекул. Текучесть мембран и применение зондов. Латеральная диффузия.

    курсовая работа [818,7 K], добавлен 10.02.2011

  • Понятие и структура белков, аминокислоты как их мономеры. Классификация и разновидности аминокислот, характер пептидной связи. Уровни организации белковой молекулы. Химические и физические свойства белков, методы их анализа и выполняемые функции.

    презентация [5,0 M], добавлен 14.04.2014

  • Материалы, методы исследования и проведения биологического анализа. Физико-географический очерк Удоканского района, его гольцовый лимногенез. Характер питания и частота встречаемости отдельных компонентов в желудках сибирского хариуса в о. Читканда.

    курсовая работа [24,3 K], добавлен 02.12.2009

  • Режим дня новорожденного: кормление, сон, прогулки, гигиенические процедуры. Правильная организация режима дня дошкольника и школьника, как важный фактор, влияющий на здоровье ребенка. Виды водных процедур и методика их проведения. Принципы закаливания.

    реферат [51,9 K], добавлен 28.10.2013

  • Строение головного мозга человека, гистология его сосудистой оболочки. Функции желез мозга: эпифиза, таламуса, гипоталамуса, гипофиза. Характеристика ассоциативных зон коры больших полушарий мозга и их участие в процессах мышления, запоминания и обучения.

    презентация [6,8 M], добавлен 03.11.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.