Распознавание эмоционального состояния человека с помощью методов глубокого обучения

Рассмотрение аспектов распознавания человеческих эмоций методами глубокого обучения, таких как модальность датчиков. Подходы к предварительной обработке, характерные признаки физиологических сигналов. Методы выбора используемой нейронной архитектуры.

Рубрика Психология
Вид статья
Язык русский
Дата добавления 23.06.2023
Размер файла 39,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Распознавание эмоционального состояния человека с помощью методов глубокого обучения

А.Г. Шишкин, д-р физ.-мат. наук

Рассмотрены все аспекты распознавания человеческих эмоций методами глубокого обучения, такие как модальности датчиков, подходы к предварительной обработке, характерные признаки физиологических сигналов, выбор используемой нейронной архитектуры, существующие наборы данных и диапазон ожидаемой точности методов. Выделены основные проблемы автоматического распознавания эмоционального состояния человека.

Ключевые слова: эмоции, машинное обучение, глубокие нейронные сети.

Введение

Эмоции играют важную роль в повседневной жизни человека. Существует множество приложений автоматического распознавания эмоций в медицине, электронном обучении, мониторинге, маркетинге и т.д. Классические системы распознавания эмоций состоят из двух основных частей: выделение характерных признаков и непосредственное определение на их основе эмоционального состояния человека. В большинстве традиционных методов выделение характерных признаков выполняется вручную. Однако в последние годы в связи с ростом вычислительной мощности современных компьютеров и увеличением размера доступных наборов данных глубокие нейронные сети (ГНС) стали широко использоваться в системах распознавания эмоций благодаря присущему им механизму извлечения признаков. В настоящее время техника глубокого обучения - это основной подход к определению эмоционального состояния человека по его физиологическим сигналам.

Согласно современным представлениям [1], насчитывается более 60 видов эмоций, которые можно разделить на две группы: десять основных (гнев, ожидание, недоверие, страх, счастье, радость, любовь, печаль, удивление, доверие) и около 50 вторичных. Для оценки столь большого количества эмоций обычно ориентируются на другие типы классификации, включающие измерения эмоций [2, 3], в большинстве случаев валентность (направленность эмоции - положительная/отрицательная), возбуждение (уровень психической и физической активации, возбуждение или вовлеченность - высокая/низкая) и контроль (доминирование - относится к способности контролировать аффект); анализируют только базовые эмоции, которые легче идентифицировать.

Несмотря на упрощение модели эмоций при таком подходе, остается еще множество вопросов, связанных с оценкой эмоций, особенно с выбором методов измерения и измерительной аппаратуры, а также методов анализа полученных данных. При этом проблема распознавания и оценки эмоций остается сложной в силу ее междисциплинарного характера.

Эмоции выражаются всеми средствами человеческого общения - такими как слова, тон голоса, мимика, язык тела, а также через так называемые биопараметры (такие как реакция вегетативной нервной системы). Большинство этих параметров можно измерить с помощью различных технологий и датчиков. Методы различаются по своему потенциалу в отношении того, какие эмоции могут быть обнаружены, их точности, возможности проверки результатов и их применимости в различных обстоятельствах.

Независимо от используемой теории эмоций и метода классификации, одной из самых больших проблем является сбор и аннотирование данных как для разработки модели, так и для тестирования. До сих пор разработка наборов физиологических данных обычно выполняется в лабораторных условиях. Эмоции у испытуемых преднамеренно вызываются через регулярные промежутки времени. Это позволяет экспериментаторам контролировать стимулы и уменьшать количество контекстуальных факторов, которые способны влиять на реакцию испытуемых. К таким стимулам могут относиться отрывки из известных фильмов, музыкальные клипы, а также методы, требующие активного участия испытуемых, - например, видеоигры, виртуальная реальность (VR), а в последнее время - иммерсивные VR-игры.

Однако большинство исследователей сходятся во мнении, что спонтанное выражение эмоции отличается от искусственно вызванного [4, 5]. Имеются исследования, сравнивающие искусственный стресс и стресс в реальной жизни [6, 7]. В результате было установлено, что физиологические параметры при реальном стрессе существенно отличались от искусственно вызванных. На сегодняшний день в нескольких исследованиях были предприняты попытки создать наборы данных с реальными (не искусственно индуцированными) эмоциями, т.е. наборы данных, связанные с эмоциями вне лаборатории, в ответ на повседневные события [8 - 10]. В этой методологии за испытуемыми можно, например, наблюдать во время их повсед-невной деятельности в течение длительных периодов времени, чтобы собрать их естественные реакции. В ряде случаев были попытки собрать спонтанные аффективные реакции, проводя контролируемые исследования в реальной жизни. Они включают помещение испытуемых в ситуации, которые обычно вызывают сильные эмоциональные реакции, - например, прыжки с парашютом или вождение автомобиля в сложных условиях.

Большое количество современных исследований автоматического распознавания эмоций по физиологическим сигналам показали довольно хорошие результаты [11], но очень немногие из предложенных методов были впоследствии проверены на данных, полученных при естественной стимуляции эмоций. Поэтому их применимость в реальных приложениях не подтверждена. Кроме того, даже если при лабораторной индукции эмоций используется строго контролируемая экспериментальная процедура, нет уверенности в том, что субъекты действительно испытают желаемую эмоцию, поскольку люди могут по-разному реагировать на одни и те же стимулы.

В отличие от существующих обзоров, посвященных применению методов глубокого обучения для распознавания эмоционального состояния человека только по одному типу физиологических сигналов [12, 13], в данной статье рассматриваются подходы глубокого обучения, используемые для большинства прикладных модальностей, - от предварительной обработки сигнала до передачи модели обучения (transfer learning). Статья организована следующим образом. В разд. 2 дана краткая характеристика основных типов физиологических сигналов для распознавания эмоций. Разд. 3 посвящен предварительной обработке сигнала. Основные признаки, которые обычно выделяют при определении эмоционального состояния человека, представлены в разд. 4. Методы глубокого обучения и существующие наборы эмоциональных данных приведены в разд. 5, а в разд. 6 обсуждаются основные проблемы распознавания эмоций методами глубокого обучения.

1. Физиологические сигналы

На сегодняшний день существует довольно много различных методов измерения эмоций. Они сильно различаются по используемой методике и физиологическим сигналам, основные типы которых приведены ниже.

Электроэнцефалография (ЭЭГ) - электрофизиологический неинвазивный контактный метод регистрации электрической активности головного мозга человека. Для оценки эмоций человека реакцию мозга на различные раздражители обычно измеряют и анализируют в пяти частотных диапазонах сигналов ЭЭГ. Эти диапазоны отвечают разным частям мозга и связаны с разными эмоциональными состояниями. Основным недостатком ЭЭГ является то, что она выдает большой объем данных, особенно при длительном использовании. Кроме того, установка и обслуживание оборудования достаточно сложны.

Электрокардиография (ЭКГ). Поскольку сердечная деятельность человека связана с центральной нервной системой, ЭКГ можно использовать для распознавания эмоций. Наиболее часто применяют ЭКГ в 12 отведениях. Для распознавания эмоций в большинстве случаев используется комплекс QRS, определяющий активацию сердца, связанную с эмоциональным состоянием человека. Недостатки совпадают с таковыми для ЭЭГ.

Кожно-гальваническая реакция (КГР), также известная как электро- дермальная активность (ЭДА), представляет собой непрерывное измерение электрических параметров кожи человека, в основном кожной проводимости, которая связана с уровнем возбуждения: если уровень возбуждения повышен, проводимость кожи также увеличивается. В методе КГР электропроводность кожи измеряется с помощью одного или двух датчиков. Основным недостатком является невозможность определения уровня валентности.

Выражение лица (ВЛ). В последнее десятилетие заметно увеличилось количество методов распознавания эмоций, основанных на анализе мимики, положения тела и жестов. Недостатки этих методов связаны с тем, что в организме человека имеется множество ориентиров, за которыми необходимо следить. Заметим, что использование выражения лица для распознавания эмоций предъявляет повышенные требования к помещению, в котором проводится процедура: оно должно быть защищено от прямых солнечных лучей. Кроме того, при использовании методов, отслеживающих множество контрольных точек, создается огромное количество данных; сложно определить точное местоположение контрольной точки, скрытой под одеждой.

Голосовой анализ (ГА) - это анализ акустического сигнала произносимых слов. Заметим, что акустическая изменчивость стиля речи и ее скорость напрямую влияют на извлекаемые признаки - такие как высота тона и частота. Более того, одна или несколько эмоций могут иметь акустический сигнал, одинаковый на слух. Кроме того, долгосрочные эмоции способны подавлять краткосрочные. Однако собирать голосовые данные в большинстве случаев относительно просто.

Вариабельность сердечного ритма (ВСР) - это метод оценки эмоционального состояния, основанный на измерении изменения времени между ударами сердца в течение определенного периода синусового ритма. Классический метод измерения ВСР - ЭКГ. Альтернативой ВСР на основе ЭКГ является фотоплетизмография (ФПГ) - метод выявления изменений объема микрососудистой крови в тканях.

Респираторный мониторинг (РМ) дает полезную информацию об эмоциональных состояниях. К основным методам получения данных относятся измерения колебаний влажности, давления и температуры выдыхаемого воздуха, а также измерения, основанные на определении изменения концентрации углекислого газа и кислорода. Однако на частоту дыхания могут влиять различные внешние факторы - такие как движения человеческого тела или уровень усталости человека, а также условия окружающей среды, такие как температура и уровень влажности.

Температура кожного покрова (ТКП), связанная с сердечной деятельностью человека и реакцией на потоотделение, является реакцией вегетативной нервной системы, неподконтрольной человеку. Наиболее часто используемые методы измерения: контактный метод с помощью различных полупроводниковых датчиков и бесконтактный метод, основанный на тепловизионном изображении лица или всего тела с помощью инфракрасных камер. Основными недостатками методики являются довольно большая латентность по сравнению с ранее описанными методами, а также невозможность распознавания конкретной эмоции.

Электромиография (ЭМГ) - это метод оценки и записи электрического потенциала, генерируемого мышечными клетками. Процедура ЭМГ проводится путем измерения напряжения между специальными электродами, обычно расположенными по бокам глаз, в верхнем углу глаза возле носа, на лбу, щеках и подбородке. Поскольку эта модальность основана на той же гипотезе, что и распознавание выражения лица, существуют аналогичные ограничения. Кроме того, электроды должны быть защищены от электромагнитных помех.

Электроокулография (ЭОГ) -метод измерения постоянного роговичносетчаточного потенциала, существующего между передней и задней частями человеческого глаза. Для измерения движения глаз пары электродов обычно размещают либо над, либо под глазом, либо слева и справа от глаза. Бесконтактные измерения могут быть выполнены также с использованием видео- окулографической камеры или инфракрасной окулографической камеры. Недостатки ЭОГ и ЭМГ схожи.

распознавание эмоция глубокое обучение

2. Предварительная обработка сигнала

В силу внутренних свойств биологических систем физиологические сигналы очень нерегулярны, многомерны, нестационарны и неоднородны. Сложность физиологических биосигналов создает большие проблемы для автоматизированного анализа. Большинство описанных в литературе подходов зависят от конкретного устройства и значительно снижают производительность при использовании другого набора данных в пределах того же класса физиологических сигналов. Одной из наиболее серьезных проблем автоматизированного распознавания эмоций является наличие нескольких источников шума, артефактов и пропусков данных в биосигналах.

Несмотря на то, что в ряде случаев в качестве входа для нейронной сети может использоваться исходный необработанный биосигнал, неотъемлемой частью большинства методов определения эмоционального состояния является предварительная обработка полученного сигнала на этапе сбора данных.

Здесь необходимо отдельно рассматривать одномерные сигналы большинства модальностей и изображения в ВЛ и ЭЭГ, а также изображения, полученные при выделении признаков сигнала. В первом случае наиболее популярными этапами предобработки являются нормализация, передискретизация и вычитание базового сигнала. Нормализация необходима для унификации диапазона входного сигнала: обычно все сигналы нормируются путем вычитания среднего значения и деления на стандартное отклонение. Передискретизация выполняется для преодоления неоднородности частот дискретизации различных устройств сбора сигналов. Сигналы передискретизируются с фиксированной частотой, которая выбирается эмпирически в качестве компромисса: в то время как более высокие частоты дискретизации будут давать более информативные сигналы, более низкие частоты дискретизации увеличивают скорость обработки. Как правило, наборы данных содержат базовые сигналы без эмоциональной активности, когда испытуемым не предъявляется стимул. Поэтому полезно удалить эту нейтральную базовую активность из всех сигналов в качестве специального шага предварительной обработки для обнаружения эмоций.

Для уменьшения объема памяти, требуемой для входных данных, исходные сигналы обычно разбиваются на сегменты с фиксированной длиной. Затем сигнал очищается полосовыми фильтрами с разными непересекающимися полосами пропускания. После фильтрации для ряда сигналов может выполняться поиск локальных максимумов и минимумов.

В случае речевого сигнала существует ряд особенностей. Речевой сигнал обычно содержит много пауз, которые не несут информации и должны быть удалены. Затем сигнал должен быть предварительно усилен, что подчеркивает более высокие частоты, сглаживает спектр сигнала и делает его менее восприимчивым к ошибкам округления в последующих вычислениях. Обычно выделение сигнала реализуется в виде фильтра с конечной импульсной характеристикой с одним свободным параметром.

В случае предварительной обработки изображения лица первым шагом является его обнаружение, а затем удаление фона и других областей. Выравнивание лиц с использованием координат ключевых точек может значительно повысить производительность систем распознавания эмоций за счет уменьшения разброса в размерах лиц и их угла по отношению к камере. В последнее время для выравнивания лиц широко используются глубокие сети. Среди них глубокая сверточная сеть (Task Constrained Deep ConVolutional Network - TCDCN) [14] и многозадачная сверточная сеть (Multitasking CNN) [15]. Изменения в освещении и положении головы могут привести к значительным вариациям изображений и, следовательно, ухудшить работу систем распознавания эмоций. Поэтому для компенсации этих изменений используются два типичных метода нормализации лица - нормализация освещения и нормализация позы.

Ключевым шагом к повышению производительности методов машинного обучения, особенно архитектуры DNN, является аугментация - процедура увеличения существующего набора путем случайного изменения его данных. Это предотвращает переобучение и улучшает способность к обобщению. К наиболее часто используемым при аугментации операциям относятся случайные возмущения и преобразования. Одним из перспективных методов аугментации является использование генеративно-состязательных сетей [16].

3. Извлечение признаков

После предобработки биосигналы можно подавать на вход соответствующей нейронной сети, но в ряде случаев можно получить большую эффективность, если выбрать характерные признаки, которые можно использовать в качестве как входного сигнала, так и дополнения к выделенным самой сетью признакам.

В случае ЭЭГ сигналы содержат серию волн, характеризующихся своей частотой и амплитудой. Каждая эмоция имеет определенный тип особых волн. Например, это может быть волна, амплитуда которой относительно выше, чем у остальных волн в сигнале. В качестве признаков этих волн можно использовать их продолжительность и амплитуду. Часто сигналы ЭЭГ разлагают на поддиапазоны с помощью дискретного вейвлет- преобразования. В этом случае вычисляется относительная энергия каждого поддиапазона.

Параметрические измерения сигналов ЭКГ во временной области позволяют количественно оценить изменчивость последовательных интервалов между сокращениями сердца (inter-beat intervals - IBI). Для них рассчитываются различные статистические характеристики, а также распределение мощности в частотной области.

Общий метод анализа ВСР обычно включает алгоритмы во временной и частотной областях. Наиболее распространенный метод, используемый для анализа ВСР, - расчет спектральной плотности мощности сигнала. Типичными измерениями ВСР, взятыми из частотной области, являются мощности в полосах частот и отношения мощностей.

В случае сигналов КГР извлекаются статистические признаки во временной области, связанные с амплитудой, временами нарастания и затухания, задержкой, индексами средней амплитуды и пиковыми индексами КГР.

При использовании речевого сигнала чаще всего используются следующие признаки: мел-частотные кепстральные коэффициенты, коэффициенты линейного предсказания, частота основного тона (F0), огибающая F0, их дельта- и дельта-дельта-коэффициенты, мел-спектрограмма. Другие характеристики включают производную первой форманты, скорость перехода через нуль исходного сигнала, громкость, джиттер, мерцание, энергию в разных спектральных диапазонах.

4. Анализ ГНС

Большинство сигналов, например, ЭКГ или КГР, после предобработки можно напрямую использовать в качестве входных данных в глубоких нейронных сетях. При этом сегментированные данные, как правило, конкатенируются и подаются на вход нейронной сети с архитектурой, которая гипотетически может быть полезна для классификации большинства одномерных биосигналов.

При этом 14 каналов ЭЭГ после преобразования в изображения могут быть использованы в качестве входных данных для архитектуры двумерной ГНС. Поэтому для классификации с помощью нейронной сети с одновременным использованием одномерных сигналов и изображений (ЭЭГ или лицевых) разрабатываются две разные архитектуры ГНС: одна для изображений, а другая для таких сигналов как ЭКГ и КГР. Сетевые архитектуры для анализа лица будут обсуждаться позже. Архитектура для ЭЭГ и изображений лица в основном построена на двумерных сверточных слоях, в то время как архитектура для ЭКГ и КГР построена на сочетании одномерных сверточных слоев и долгой краткосрочной памяти (Long Short-Term Memory - LSTM), где последняя должна имитировать временную природу данных.

Типичная архитектура CNN модели глубокого обучения обычно состоит из нескольких сверточных слоев и слоев пулинга, или иначе - субдискретизации (pooling layers), за которыми следуют ячейка LSTM и полносвязные слои. В качестве функции активации для каждого слоя свертки обычно используется линейный выпрямитель ReLU или его модификации. Исключение (dropout) также применяется для предотвращения переобучения.

4.1 Механизм внимания

Методы глубокого обучения, в частности сверточные нейронные сети (CNN), позволяют автоматически извлекать большое количество признаков для последующего анализа. Очевидно, что не все части сигнала одинаково важны для распознавания данной эмоции. Например, при распознавании выражения лица области рта и глаз следует учитывать в первую очередь, тогда как другие части лица (уши и волосы) мало влияют на результат. На основании этого наблюдения можно добавить в архитектуру нейронной сети механизм внимания, например, посредством сети пространственных преобразователей (трансформеров), для фокусировки на важных участках сигнала [17]. Модуль трансформера, по сути, пытается сфокусироваться на наиболее важных частях изображения, оценивая выборку в интересующей области. Можно использовать различные преобразования, - например, аффинное, которое обычно применяется во многих приложениях.

4.2 Передача модели обучения (transfer learning)

Как известно, прямое обучение глубоких сетей на относительно небольших наборах данных подвержено переобучению. Чтобы смягчить эту проблему, во многих исследованиях использовались дополнительные данные, собранные для аналогичных задач, для предварительного обучения собственных сетей с нуля или для их тонкой настройки с помощью хорошо известных предварительно обученных моделей [18, 19].

Как правило, низкоуровневые признаки являются общими для большинства сигналов, и уже обученная модель должна быть полезна для классификации после точной настройки высокоуровневых признаков. Обычно в предварительно обученной CNN (например, ResNet), разработанной для классификации сигналов, только верхние слои заменяются полносвязными, чтобы сделать архитектуру совместимой с распознаванием эмоций. Затем модель настраивается с использованием эмоциональных данных таким образом, что сначала настраиваются полностью связанные слои, а затем последовательно настраивается каждый блок CNN. Эта тонкая настройка постепенно повышает точность системы распознавания эмоций без необходимости обучения CNN с нуля со случайной инициализацией.

Однако по сравнению со сквозной структурой обучения в готовой предварительно обученной модели присутствует репрезентативная структура, не связанная с модальностью эмоций. Таким образом, выделенные признаки могут привести к снижению эффективности распознавания эмоций.

4.3 Сетевой ансамбль

Ансамбль из нескольких сетей может превосходить отдельные сети по своей эффективности [20]. Изменяя размер фильтров, количество нейронов и количество слоев в сетях, а также используя несколько случайных выборок для инициализации весов, можно увеличить разнообразие сетей [21]. Кроме того, для увеличения разнообразия можно использовать различные сетевые архитектуры. Например, на первом этапе сверточный автокодировщик обучается на выбранном наборе данных, а затем, на втором этапе, веса сверточного слоя используются для инициализации сверточного слоя в CNN [22].

Другой подход заключается в использовании различных сетевых моделей. Например, в первой модели используются многоуровневая CNN для извлечения черт лица из каждого видеокадра и рекуррентная сеть, такая как LSTM, для анализа временной информации. Вторая модель более точно настраивает обученную сеть, такую как VGG или ResNet, а третья кодирует функции статистически [23]. Каждая из этих моделей может выделить эмоциональные признаки человеческого лица из одного видеокадра. Синтез моделей может быть выполнен с использованием различных методов, таких как синтез признаков, расчет средних показателей, метод голосования и синтез весовых коэффициентов, чтобы определить наилучшую комбинацию. Однако разработка различных типов сетей для компенсации друг друга, очевидно, увеличивает вычислительные затраты.

4.4 Каскадные сети

В каскадной сети модули для разных задач последовательно объединяются для построения более глубокой сети, где выходы первых модулей используются последующими модулями. Для изучения иерархии признаков были предложены комбинации различных структур, с помощью которых можно постепенно отфильтровывать факторы вариации, не связанные с эмоциями [24].

В целом, этот метод может уменьшить проблему переобучения за счет устранения факторов, не связанных с эмоциями. Недостатком является то, что подсети в большинстве существующих каскадных систем обучаются индивидуально без обратной связи, в то время как с точки зрения повышения эффективности и производительности предпочтение отдается сквозной (end- to-end) стратегии обучения.

4.5 Распознавание выражения лица в видео

Распознавание лиц может выиграть от временной корреляции последовательных кадров в видео. В видеоконтексте выражения лица не проявляются мгновенно, а постепенно нарастают во времени, пока не достигают своего пика. Таким образом, статический подход привел бы к предсказаниям, которые могут сильно различаться по кадрам и приводить к неинтерпретируе- мым результатам.

Для анализа последовательных данных можно рассмотреть несколько методов глубокого обучения, наиболее известными из которых являются рекуррентные нейронные сети (RNN) и LSTM. Было проведено множество исследований комбинации двумерных сверточных нейронных сетей с RNN или LSTM, используемых для учета временного аспекта при распознавании эмоций в видео [25, 26]. Обычно рекуррентная нейронная сеть кодирует временную динамику, используя в качестве входных данных функции, извлеченные CNN по отдельным кадрам. Архитектура C3D [27, 28], которая применяет трехмерные сверточные ядра с общими весами по оси времени вместо традиционных двумерных ядер, широко используется для динамического распознавания эмоций. 3D-свертки сохраняют временной аспект видеоряда. Однако производительность всех указанных сетей неудовлетворительна. Так, RNN не может различать эффективные признаки, выделенные сверточными сетями. А 3D-фильтры в C3D применяются к очень коротким видеоклипам, игнорируя динамику на длинных временных интервалах. Кроме того, обучение такой огромной сети представляет собой вычислительную проблему, особенно для систем динамического распознавания эмоций, в которых недостаточно видеоданных.

4.6 Анализ в реальном времени

Несмотря на то, что производительность систем распознавания эмоций на основе глубокого обучения продолжает расти, существует множество препятствий для широкого их использования, и одним из важнейших является высокая архитектурная и вычислительная сложность глубоких нейронных сетей, лежащих в основе таких систем. Это справедливо в первую очередь при проектировании систем реального времени. Для решения этой проблемы важным направлением исследований является разработка высокоэффективных архитектур глубоких нейронных сетей, адаптированных для задачи распознавания эмоций в реальном времени. Одна из стратегий заключается в уменьшении глубины архитектуры нейронной сети с целью уменьшить вычислительную и архитектурную сложность [29]. Другая стратегия состоит в уменьшении входного разрешения нейронной сети.

Однако эти подходы обычно приводят к заметному снижению точности классификации эмоций. В попытке решить проблему были введены стратегии поиска нейронной архитектуры (NAS), чтобы автоматизировать процесс проектирования архитектуры модели путем поиска схемы сети наиболее эффективной в пространстве поиска [30]. Для этого используются различные методы оптимизации, в том числе основанные на эволюционных алгоритмах. Однако, учитывая бесконечно большое пространство поиска, в котором может существовать оптимальная сетевая архитектура, часто требуются значительные усилия для определения пространства, а также определения стратегии поиска.

4.7 Наборы данных

В настоящее время существует довольно много наборов эмоциональных данных, которые находятся в свободном или частично бесплатном доступе. Некоторые из них включают только один тип физиологического сигнала, тогда как многие носят мультимодальный характер. Наиболее известные эмоциональные наборы данных представлены в табл. 1.

Таблица 1

Название

Эмоции

Описание

Ссылка

1

2

3

4

AffectNet

Нейтральная, счастье, печаль, удивление, страх, отвращение, злость, презрение.

Более 1 миллиона изображений лиц, собранных из Интернета путем использования трех основных поисковых систем с применением 1250 ключевых слов, связанных с эмоциями, на шести разных

языках.

31

Dreamer

Спокойствие, удивление, веселье, страх, волнение, отвращение,

счастье, гнев, печаль.

Сигналы ЭЭГ и ЭКГ, регистрируемые при вызывании аффекта с помощью аудиовизуальных стимулов. Сигналы от 23 участников.

32

CK+

Нейтральная, печаль, удивление, счастье, страх, гнев, презрение и отвращение.

5876 помеченных изображений 123 человек. Все изображения созданы с одинаковым фоном, в основном в оттенках серого, и размером 640*490 пикселей.

33

FER-2013

Счастье, грусть, злость, испуг, удивление, отвращение и нейтральная.

28000 помеченных изображений в обучающем наборе, 3500 помеченных изображений в наборе для обучения и 3500 изображений в тестовом наборе. Результаты поиска изображений каждой эмоции в Google.

34

RAF Database

6 классов основных и нейтральная эмоции, а также 12 классов сложных эмоций.

30000 разнообразных изображений лиц, загруженных из Интернета. Каждое изображение было независимо помечено примерно 40 экспертами.

35

DEAP

Возбуждение, валентность, нравится/не нравится, доминирование и фамильярность.

Мультимодальный набор данных для анализа аффективных состояний человека. ЭЭГ, КГР, ЭОГ, ЭМГ, РМ, ТКП и ВЛ 32 участников регистрировали в то время, когда каждый из них смотрел 40 одноминутных музыкальных клипов.

36

Emo-DB

Нейтральная, гнев, страх, счастье, печаль, отвращение, скука.

Берлинская база данных эмоциональной речи. 10 предложений на немецком языке, 5 длинных и 5 коротких предложений. 10 дикторов (5 мужчин и 5 женщин).

37

IEMOCAP

Нейтральная, гнев, страх, счастье, печаль, отвращение, разочарование, волнение, удивление.

Аудионабор данных. 10 дикторов (5 мужчин и 5 женщин), 1150 предложений. Средняя продолжительность диалога 5 мин., 3220 нейтральных записей.

38

VAM

Валентность, активация, доминирование.

12 часов спонтанной и эмоциональной речи, записанной с немецкого ток-шоу "Vera am Mittag".

9

AMIGOS

Самооценка и внешняя оценка аффективных уровней.

ЭЭГ, ЭКГ, КГР, фронтальное изображение лица, а также видеоизображение в полный рост.

39

Заметим, что существует три типа наборов данных, специально разработанных для распознавания речевых эмоций: смоделированные, полуестественные и коллекции естественной речи. Смоделированные наборы данных разрабатываются обученными дикторами, которые читают один и тот же текст с разными эмоциями. Полуестественные наборы данных создаются, когда людей просят прочитать текст, содержащий разные эмоции. Естественные наборы данных собираются из телешоу, видео - на YouTube колл- центров. После этого эксперты маркируют эмоции. Например, Emo-DB [37] - смоделированный набор, IEMOCAP [38] - полуестественный, а VAM [9] - естественный набор данных.

4.8 Точность

В табл. 2 приведены некоторые результаты распознавания эмоционального состояния с использованием методов глубокого обучения. Видно, что для VAM - естественного набора речевых данных - наблюдается резкое снижение эффективности распознавания эмоций. Аналогичная ситуация и для AffectNet [31]. FER-2013 [34], полученных в реальных условиях. Это естественные наборы данных, их можно использовать для надежного моделирования систем распознавания эмоций. Однако моделирование и обнаружение эмоций с использованием этого типа набора данных может быть затруднено из-за непрерывности эмоций и их динамических изменений во время сбора данных, а также наличия нескольких эмоций одновременно - внешних шумов и артефактов.

Таблица 2

Набор данных

Модальность

Модель

Точность, %

Ссылка

DREAMER, AMIGOS

ЭЭГ, ЭКГ, КГР

CNN, LSTM

76.7, 98.7, 63.7

40

DEAP

ЭЭГ

LSTM

Возбуждение -- 85.5.

В алентность -- 85.7.

41

DEAP

ЭЭГ

PNN

Возбуждение -- 81.2.

В алентность -- 81.3.

42

DEAP

ЭЭГ

ANN, CNN

Возбуждение -- 74.3, 75.4.

Валентность -- 76.8,

85.8

43

CK+

ВЛ

CNN

97

44

RAF-DB, AffectNet

ВЛ

CNN

80.5, 54.8

45

FER-2013

ВЛ

CNN

65

46

IEMOCAP, VAM

ГА

CNN, LSTM

82.8, 66.3

47

Emo-DB, IEMOCAP

ГА

CNN, LSTM

95.3, 86.2

48

Выводы

В настоящее время методы глубокого обучения, позволяющие повысить эффективность распознавания эмоций, используются все чаще. Кроме того, за последние несколько лет значительно увеличился объем доступных наборов эмоциональных данных. При оценке точности представленных методов можно выделить три технологии с наилучшей точностью распознавания эмоций: ЭКГ, ЭЭГ и КГР. Однако все они являются контактными методами и не могут быть использованы во многих приложениях. Увеличение количества распознаваемых эмоций резко снижает качество и достоверность распознавания. Точность распознавания трех эмоций в наборах лабораторных данных может достигать даже 100%, но уровень их интенсивности не может быть определен однозначно. Исследования показали, что в большинстве случаев лучше распознаются отрицательные, чем положительные эмоции.

К сожалению, остается еще много проблем в области распознавания эмоций. Выбор методов измерения и датчиков - сложный процесс, вызывающий множество вопросов. Основные методы выбора датчиков до сих пор неясны из-за отсутствия надежных методов классификации и функциональных связей между ними и желаемыми эмоциями. Методы обработки и анализа сигналов также играют важную роль в выборе методов и датчиков. Во многих исследованиях предприняты попытки выделить характерные черты физиологических сигналов, наиболее связанных с эмоциями. К сожалению, до сих пор нет четких доказательств того, какие комбинации признаков и какие комбинации физиологических сигналов наиболее значимы при описании эмоциональных изменений.

Заметной методологической проблемой всех методов распознавания эмоций является отсутствие единой концепции набора данных. Исследователи выбирают размер контрольной группы, ее состав, время эксперимента и периоды наугад по мере необходимости или возможности.

Поскольку стимулирующие материалы в большинстве случаев подбираются искусственно, метки эмоций задаются вручную и могут сильно отличаться от реальных. Эмоции зависят от многих факторов. Было показано, что разные методы индукции приводят к разным физиологическим реакциям.

Для большинства исследований число испытуемых обычно невелико - от 2-3 до 20-30. Из-за ограниченной выборки эффективность классификаторов довольно низкая. Переобучение -- очень распространенная проблема.

Исследователи обычно оценивают свои алгоритмы на конкретном наборе данных и при этом могут добиваться удовлетворительной производительности. Однако уже ранние эксперименты с перекрестными базами данных показали, что между наборами данных существуют расхождения из-за разных сред сбора и параметров разработки набора [14], поэтому алгоритмы, оцениваемые с одним набором данных, не обладают хорошей обобщаемостью и не демонстрируют аналогичную производительность на новых данных.

Другой распространенной проблемой является дисбаланс классов, который возникает из-за практических аспектов сбора данных: легко вызвать и аннотировать радость, но собрать информацию об отвращении, гневе и других менее распространенных эмоциях может быть очень сложно. Одно из возможных решений - сбалансировать распределение классов на этапе предварительной обработки путем дополнения и синтеза данных.

Тем не менее, большое количество новых исследований глубоких нейронных сетей показывает, что они способны лучше, чем традиционные методы, решать задачу распознавания эмоций. Разработка и использование различных методов, таких как временные механизмы и механизмы внимания, помогают в создании более эффективных систем распознавания эмоций. Решения в реальном времени реализуются путем поиска оптимальной нейронной архитектуры. Дальнейшие исследования приведут к более надежным и независимым от набора данных решениям для определения эмоционального состояния человека в реальных жизненных ситуациях.

Литература

1. Feidakis M, Daradoumis T., Caballe S. Endowing e-learning systems with emotion awareness // Proc. 3rd Intern. Conf. on Intel. Networking and Collab. Sys. - Fukuoka, 2011. - P. 68-75.

2. Russell J.A. A circumplex model of affect // J. Pers. Soc. Psychol. - 1980. - Vol. 39. - P. 1161-1178.

3. Truong K., Leeuwen D.V., Jong F.D. Speech-based recognition of self-reported and observed emotion in a dimensional space // Speech Commun. - 2012. - Vol. 54. - P. 10491063.

4. Saumure C., Plouffe-Demers M.-P., Estephan A., et al. The use of visual information in the recognition of posed and spontaneous facial expressions // J. Vision - 2018. - Vol. 18. - P. 21.

5. Sauter D.A., Fischer A.H. Can perceivers recognise emotions from spontaneous expressions? // Cognition and Emotion - 2018. - Vol. 32. - P. 504-515.

6. Ferreira S.O. Emotional activation in human beings: procedures for experimental stress induction // Psicologia USP. - 2019. - Vol. 30. - e180176.

7. Hoque M.E, McDuff D.J. and Picard R.W. Exploring temporal patterns in classifying frustrated and delighted smiles // IEEE Trans. Affect. Comput. - 2012. - Vol.3, issue 3. - P. 323-334.

8. Larradet F., Niewiadomski R, Barresi G. et al. Toward emotion recognition from physiological signals in the wild: aP.roaching the methodological issues in real-life data collection // Frontiers in Psychology - 2020. - Vol. 11. - Article 1111.

9. Grimm M., Kroschel K., Narayanan S. The Vera am Mittag German Audio-Visual Emotional Speech Database // Proc. IEEE Intern. Conf. Multim. and Expo/ - Hannover, 2008. - P. 865-868.

10. Kosti R, Alvarez J. M., Recasens A. et al. Context based emotion recognition using emotic dataset // IEEE Tran. Pattern Anal. Mach. Intell. - 2019. - Vol. 42, issue 11. - P. 27552766.

11. Jerritta S., Murugappan M., Nagarajan R. et al. Physiological signals based human emotion recognition: a review Proc. // IEEE 7th Intern. Colloq. Signal Proc. AP. Penang. - 2011. - P. 410-415.

12. Abbaschian B.J., Sierra-Sosa D., Elmaghraby A. Deep Learning Techniques for Speech Emotion Recognition, from Databases to Models // Sensors - 2021. - Vol. 21. - P. 1249.

13. Li S., Deng W. Deep Facial Expression Recognition: A Survey // 2018. - arXiv:1804.08348v2.

14. Zhang Z., Luo P., Loy C.C. et al. Facial landmark detection by deep multi-task learning // Proc. Europ. Conf. Comp. Vis. - 2014. - P. 94-108.

15. ZhangK., Zhang Z., Li Z. et al. Joint face detection and alignment using multitask cascaded conVolutional networks // IEEE Signal Proc. Letters - 2016. - Vol. 23, № 10. - P. 14991503.

16. Bowles C., Chen L., Guerrero R. et al. GAN augmentation: augmenting training data using

generative adversarial networks // 2018. - arXiv:1810.10863.

17. Minaee S., Minaei M., Abdolrashidi A. Deep-emotion: facial expression recognition using attentional conVolutional network // Sensors - 2021. - Vol. 21. - P. 3046.

18. Feng K., Chaspari T. A review of generalizable transfer learning in automatic emotion recognition // Frontiers in Computer Science - 2020. - Vol. 2. - article 9.

19. Akhand M.A.H., Shimamura T. Facial emotion recognition using transfer learning in the deep CNN // Electronics - 2021. - Vol. 10. - P. 1036.

20. Jia C., Li C.L., Ying Z. Facial expression recognition based on the ensemble learning of CNNs // Proc. 2020 IEEE Intern. Conf. on Signal Proc., Comm. and Comp. (ICSPCC) -

2020. - P.1-5.

21. Pons G., Masip D. Supervised committee of conVolutional neural networks in automated facial expression analysis // IEEE Tran. on Affect. Comp. - 2017. - P. 343-350.

22. Wiranata I.M.N., Pranowo D., Santoso A.J. Emotion recognition based on deep learning with auto-encoder // AIP Conf. Proc. - 2020. - 2217 030013.

23. Do L.N., Yang H.J., Nguyen H.D. et al. Deep neural network-based fusion model for emotion recognition using visual data // J. Supercomput. - 2021. - Vol. 77. - P. 1077310790.

24. Zhu X., Ye S., Zhao L. et al. Hybrid attention cascade network for facial expression recognition // Sensors - 2021. - Vol. 21. - P. 2003.

25. Hung B.T., Tien L.M. Facial expression recognition with CNN-LSTM in Research in intelligent and computing in engineering. Advances in intelligent systems and computing -

2021. - Vol. 1254. - ed Kumar R and Quang N H (Singapore: Springer).

26. Abdullah M., AhmadM., Han D. Facial expression recognition in videos: An CNN-LSTM based model for video classification // Proc Int. Conf. Electronics, Inform., and Comm. - 2020. - P. 1-3.

27. Tran D., Bourdev L., Fergus R. et al. Learning spatiotemporal features with 3d conVolutional networks // Proc. IEEE Intern. Conf. Comp. Vis. (ICCV). - 2015. - P.44894497.

28. Haddad J., Lezoray O., Hamel P. 3D-CNN for facial emotion recognition in videos // Proc. Intern. Symp. Vis. Comp.San Diego (Virtual). - 2020.

29. Khorrami P., Paine T., Huang T. Do deep neural networks learn facial action units when doing expression recognition? // Proc. IEEE Int. Conf. Comp. Vis.- Santiago, 2015. - P.1927.

30. Ren P., Xiao Y., Chang X. et al. A comprehensive survey of neural architecture search: challenges and solutions // ACM Comput. Surv. - 2021. - Vol. 54, № 4. - P.1-34.

31. Mollahosseini A., Hasani B., Mahoor M.H. AffectNet: A database for facial expression, valence, and arousal computing in the wild // 2017. - arXiv:1708.03985.

32. Katsigiannis S., Ramzan N. DREAMER: A Database for Emotion Recognition Through EEG and ECG Signals From Wireless Low-cost Off-the-Shelf Devices // IEEE Journal of Biomedical and Health Informatics - 2018. - Vol. 22, № 1. - P.98-107.

33. Lucey P., Cohn J.F., Kanade T. et al. The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression // Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops - 2010. - P.94-101.

34. Challenges in representation learning: facial expression recognition challenge

https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-

recognition-challenge/data

35. Li S., Deng W., Du J. Reliable Crowdsourcing and Deep Locality-Preserving Learning for Expression Recognition in the Wild // Proc. IEEE Conference on Computer Vision and Pattern Recognition - 2017. - P.2584-2593.

36. Koelstra S,. Muehl C., Soleymani M. et al. DEAP: A Database for Emotion Analysis using Physiological Signals // IEEE Trans. on Affective Computing - 2012. - Vol. 3, № 1. - P.18-31.

37. Burkhardt F., Paeschke A., Rolfes M. et al. A database of german emotional speech // Proc. Interspeech - Lisbon, 2005.

38. Busso C., BulutM., Lee C.C. et al. IEMOCAP: Interactive emotional dyadic motion capture database // J. Lang. Res. Eval. - 2008. - Vol. 42., № 4. - P.335-359.

39. Miranda-Correa J.A., Abadi M.K., Sebe N. et al. AMIGOS: A Dataset for Affect, Personality and Mood Research on Individuals and Groups // IEEE Transactions on Affective Computing. - 2018.

40. Dar M.N., AkramM.U., Khawaja S.G. et al. CNN and LSTM-based emotion charting using physiological signals // Sensors - 2020. - Vol. 20. - P. 4551.

41. Alhagry S., Fahmy A.A., El-Khoribi R.A. Emotion recognition based on EEG using LSTM recurrent neural network // Emotion - 2017. - Vol. 8. - P.355-358.

42. Zhang J., Chen M., Hu S. et al. PNN for EEG-based emotion recognition // Proc. Intern. Conf. on Sys., Man, and Cybernetics - Budapest, 2016. - P. 2319-2323.

43. Salari S., Ansarian A., Atrianfar H. Robust emotion classification using neural network models // Proc. Iranian Joint Cong. Fuz. Intell. Sys. - Kerman, 2018. - P. 190-194.

44. Mohammadpour M., Khaliliardali H. Facial emotion recognition using deep convolutional networks // Proc. IEEE Intern. Conf. Know.-Bas. Eng. Inn. - 2017. - P. 0017-0021.

45. Li Y., Zeng J., Shan S. et al. Occlusion aware facial expression recognition using CNN with attention mechanism // IEEE Trans. Image Process. - 2019. - Vol. 28, № 5. - P.2439-2450.

46. Agrawal A., Mittal N. Using CNN for facial expression recognition: a study of the effects of kernel size and number of filters on accuracy // Vis. Comput. - 2019. - Vol. 36. - P.405412.

47. Li Y., Zhao T., Kawahara T. Improved end-to-end speech emotion recognition using self attention mechanism and multitask learning // Proc. Interspeech - Graz, 2019.

48. Zhao J., Mao X., Chen L. Speech emotion recognition using deep 1D and 2D CNN LSTM networks // Elsevier Biomed. Signal Process. Control. - 2019. - Vol. 47. - P.312-323.

Размещено на Allbest.ru

...

Подобные документы

  • Общая характеристика эмоций и эмоционального состояния. Запах как фактор, влияющий на изменение эмоционального состояния. Исследование влияния запахов на изменение эмоционального состояния в зависимости от гендера и доминирующей перцептивной модальности.

    дипломная работа [761,9 K], добавлен 27.10.2010

  • Влияние эмоций на человека и его деятельность. Характеристики эмоционального процесса. Информационная теория эмоций. Павловское направление в изучении высшей нервной деятельности мозга. Возникновение эмоционального напряжения. Мотивирующая роль эмоций.

    реферат [36,6 K], добавлен 27.11.2010

  • Характеристика и функции эмоций. Эмоции и деятельность как взаимосвязанные и взаимообусловленные психические процессы. Влияние эмоций на познавательную деятельность человека. Оценка эмоционального состояния как важный аспект в изучении эмоций личности.

    курсовая работа [51,4 K], добавлен 13.08.2010

  • Общая характеристика эмоциональной сферы человека. Определение эмоционального состояния. Основные виды эмоций, их роль в развитии человека. Характеристика факторов, вызывающих эмоции. Положительное и отрицательное влияние эмоций и чувств на человека.

    контрольная работа [61,6 K], добавлен 26.10.2014

  • Психологическая диагностика: способы распознавания и измерения индивидуально-психологических особенностей человека. Виды и роль эмоций в жизни человека. Шкала оценки значимости эмоций. Методика диагностики уровня эмоционального выгорания В.В. Бойко.

    контрольная работа [42,4 K], добавлен 09.06.2010

  • Понятие эмоционального интеллекта как группы ментальных способностей, которые способствуют осознанию и пониманию собственных эмоций и эмоций окружающих. Авторы оригинальной концепции эмоционального интеллекта, анализ его уровня у студентов-психологов.

    курсовая работа [1,3 M], добавлен 15.04.2014

  • Характеристика и феноменология эмоций. Уильям Джемс – автор одной из первых физиологических теории эмоции. Центральные нейронные механизмы эмоций. Два класса эмоционального состояния: собственно эмоции и эмоциональные чувства. Составления айсбрейкера.

    контрольная работа [799,3 K], добавлен 04.02.2011

  • Понятие эмоций и основные подходы к их классификации. Психологическая характеристика эмоций. Развитие эмоциональной сферы ребенка. Коммуникативная функция эмоций. Исследование взаимосвязи коммуникативной функции эмоций и эмоционального интеллекта.

    дипломная работа [350,2 K], добавлен 18.11.2011

  • Характеристика эмоциональной сферы человека: определение эмоционального состояния. Виды чувственной среды и состояние личности при переживании эмоций. Положительное и отрицательное влияние переживаний и исследование уровня эмоциональности сотрудников.

    реферат [58,9 K], добавлен 28.10.2010

  • Психофизиология восприятия звука. Психология восприятия музыки. Влияние музыки на эмоциональную сферу человека. Спектр восприятия музыки - от простого любования живым звучанием до глубокого проникновения в музыкальные смыслы.

    курсовая работа [59,6 K], добавлен 10.01.2003

  • Понятие и подходы к исследованию человеческих эмоций учеными разных эпох, их физиологическое и психологическое обоснование, значение в жизнедеятельности и история изучения природы явления. Классификация и типы эмоций, их функциональные особенности.

    презентация [776,7 K], добавлен 19.11.2014

  • Рассмотрение социально-психологического тренинга как одного из основных методов активного обучения. Виды групповых методов развития творческих способностей: дискуссионные, игровые и сенситивный тренинг. Имитационные и неимитационные методы обучения.

    контрольная работа [186,6 K], добавлен 27.08.2013

  • Виды эмоций, их родовые свойства. Когнитивный (объектный) и субъектный компоненты эмоциональной единицы. Модальность эмоциональных процессов, их интенсивностные характеристики. Двухкомпонентность эмоциональных явлений. Цветотоновые эквиваленты эмоций.

    контрольная работа [34,9 K], добавлен 30.06.2009

  • Требования научно-технического прогресса в психологии. Групповые методы обучения: дискуссионные, игровые, тренинг-методы обучения. Индивидуальные методы обучения: аудиторные и неаудиторные индивидуальные занятия. Особенность развития образования.

    реферат [49,6 K], добавлен 18.11.2010

  • Теоретические основы изучения эмоциональной сферы личности младшего школьника, значение эмоций и их роль в жизнедеятельности человека. Эмпирическое исследование тревожности как негативного эмоционального состояния, интерпретация результатов исследования.

    дипломная работа [2,5 M], добавлен 16.06.2011

  • Этапы развития человеческих эмоций. Рефлекс как специфическая реакция на определенный стимул. Факты существования генетических механизмов фундаментальных эмоций. Физиологические признаки проявления эмоций. Основные принципы человеческого поведения.

    реферат [19,7 K], добавлен 23.05.2009

  • Особенности проявлений человеческих эмоций. Определение их взаимосвязи с личностью человека. Классификация эмоций, чувств и настроений. Теория Джеймса–Ланге и Кеннона-Барда. Связь эмоций с особенностями жизнедеятельности, роль во взаимоотношениях людей.

    курсовая работа [35,9 K], добавлен 16.02.2010

  • Виды эмоций и их характеристика. Физиологические основы эмоциональных состояний и их классификация. Эволюционная теория Ч. Дарвина. Рудиментарная теория эмоций. Зависимость успешности деятельности человека от силы его эмоционального возбуждения.

    курсовая работа [1,0 M], добавлен 30.03.2012

  • Сущность эмоций. Понятие и классификация эмоций. Теории эмоций. Анатомические и физиологические основы эмоций. Функции эмоций. Эмоции человека и эмоции животного. Происхождение эмоций - от животного к человеку. Мотивация человека и животного.

    реферат [46,7 K], добавлен 04.10.2004

  • Сущность эмоций и их роль в жизни человека. Психологические теории эмоций. Эмоциональные выражения как основные виды эмоций. Функции эмоций в жизнедеятельности человека. Отражение психической деятельности человека. Информационная теория эмоций.

    реферат [26,3 K], добавлен 06.01.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.