Особенности адаптивного увеличения размерности пространства признаков

Разделимость описаний объектов из разных классов - метод успешного решения задачи классификации. Применение эволюционного подхода для преобразования входного пространства признаков с целью повышения вероятности обучения искусственной нейронной сети.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 19.01.2018
Размер файла 17,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

Разделимость описаний объектов (далее «разделимость объектов») из разных классов является одним из требований для успешного решения задачи классификации. Однако в подавляющем большинстве задач требование разделимости не выполняется в силу неоднозначности данных, ошибок измерения, недостаточности информации и других причин.

В наиболее сильной формулировке требование разделимости совпадает с гипотезой компактности, в соответствии с которой расстояние между любыми объектами из одного класса должно быть меньше, чем расстояние между любыми объектами разных классов. Однако гипотеза компактности при решении реальных задач также, как правило, не выполняется, и более того, ее принятие без веских на то оснований может приводить к ошибочным заключениям при классификации объектов, например, при использовании метода ближайших соседей, и решении задач кластеризации.

В большинстве случаев, говоря о разделимости объектов из разных классов, рассматривают базовый вариант: количество классов ограничено двумя (дихотомия), поскольку он проще с точки зрения анализа и может быть легко расширен на случай большего числа классов.

Один из основных результатов, касающихся разделимости объектов, получен в работе Ковера [Cover, 1965], в которой показано, что вероятность неоднозначного обобщения для обучаемого классификатора (т.е. вероятность неверной классификации объекта находящегося близко к разделяющей поверхности) уменьшается с ростом размерности пространства. Другими словами с ростом размерности пространства увеличивается вероятность построения корректной процедуры классификации. Там же показано, что линейная разделимость является более сильным свойством чем сферическая разделимость, а последняя, в свою очередь, сильнее квадратичной.

Можно показать, что если два множества являются линейно разделимыми в RN, то существует такая цепочка преобразований из RN в R1, в результате которой образы этих множеств будут также линейно разделимыми. Однако алгоритм построения такой цепочки преобразований может быть достаточно трудоемок и сопоставим по вычислительной сложности с отысканием оптимальной разделяющей гиперплоскости [Yogananda et al., 2007].

Увеличение размерности пространства признаков размерности N, которое для вектора осуществляется с использованием матрицы размерностью MxN, , путем преобразования , в реальности не способствует увеличению размерности входного пространства, несмотря на увеличение размерности вектора признаков. Это происходит потому, что образы линейного преобразования с оператором находятся в линейном подпространстве размерности , который не превышает N. Одним из выходов является нелинейное преобразование компонент вектора-образа.

Отметим, что ввиду большого разнообразия задач и особенностей данных, создать универсальный алгоритм преобразования входного пространства для лучшей разделимости описаний объектов из разных классов не представляется возможным.

Можно сделать предположение, что разделимость двух и более множеств может быть косвенно оценена по результатам обучения классификатора, поскольку, если множества разделимы, то объекты, им принадлежащие являются различимыми, и вероятность успешного обучения выше. Среди известных методов преобразования входного пространства для большей различимости объектов из разных классов отметим машины опорных векторов [Vapnik, 1998], нейросетевые методы классификации с применением карты Кохонена [Suganthan, 2001], Echo State Networks [Jaeger et al., 2004] и так называемые «deep-learning» архитектуры нейронных сетей [Bengio et al., 2007].

В данной работе рассматривается исследование применения эволюционного подхода для преобразования входного пространства признаков таким образом, чтобы повысить вероятность успешного обучения искусственной нейронной сети (ИНС).

Будем рассматривать применение эволюционного подхода для этапа обработки входных векторов таким образом, чтобы изменить размерность входного пространства для обучения ИНС.

Для этого эволюционный алгоритм будет использоваться для настройки весов искусственной нейронной сети без скрытых слоев. Количество нейронов в выходном слое определяется как , где б - константа, - количество входных нейронов. Будем обозначать такую ИНС как ИНС-1.

Оценка приспособленности fi для i-й особи производится следующим образом:

разделимость нейронный признак

,

где - ошибка обучения ИНС по алгоритму RPROP (Resilient PROPagation) на протяжении 50 эпох. Используется максимальная ошибка по трем попыткам обучения ИНС для того чтобы уменьшить вероятность переобучения нейронной сети. Для реализации алгоритма RPROP использовалась библиотека Encog.

Выходные сигналы обученной ИНС-1 используются в качестве входных сигналов для ИНС-2, обучаемой по алгоритму RPROP. ИНС-2 также не имеет скрытых слоев и имеет входных нейронов. В целом совокупность ИНС-1 и ИНС-2 можно рассматривать как одну нейронную сеть с одним скрытым слоем, содержащим нейронов. Обучение такой сети разбивается на два этапа:

1. Нейроэволюционное обучение ИНС-1. В качестве решения выбирается ИНС-1 с наименьшей приспособленностью, встреченной за все время эволюции.

2. Обучение ИНС-2 с использованием в качестве входных сигналов выходных сигналов ИНС-1, полученной на этапе 1.

2. Результаты

Целью экспериментов является проверка влияния эволюционной настройки преобразования входных векторов на результат решения задачи классификации. Рассматривается ряд задач из набора Proben1 [Prechelt, 1994], а именно: cancer1, card1, diabetes1, glass1, heart1, horse1.

В качестве эволюционного алгоритма используется вещественный генетический алгоритм с турнирной селекций, BLX-alpha кроссинговером, гауссовской мутацией и элитаризмом. Размер популяции равен 20 особям; вероятность кроссинговера и мутации соответственно 0,7 и 0,01; размер турнира - 4 особи.

Функции активации в ИНС-1 и ИНС-2 - сигмоидные, вида:

,

где - константа, - взвешенная сумма входных сигналов нейрона.

Результаты экспериментов для ИНС-1: средняя и среднеквадратическое отклонение (СКО) точности классификации на тестовом множестве по 10 ИНС-2 для данной ИНС-1, представлены в табл. 1. Жирным шрифтом выделены лучшие результаты. Производилось сравнение с «базовыми» результатами для набора Proben1 из статьи [Prechelt, 1994], полученными при ручной настройке структуры ИНС, обучаемой по алгоритму RPROP.

Табл. 1. Результаты тестирования ИНС: средняя ошибка классификации на тестовом множестве (в скобках - СКО), - при длительности эволюции ИНС-1 10 поколений

Задача

Длительность обучения ИНС-2, эпох

Результаты из [Prechelt, 1994]

100

200

300

400

500

cancer1

2,36 (0,18)

2,70 (0,28)

2,64 (0,30)

2,64 (0,30)

2,59 (0,30)

1,38 (0,49)

card1

10,17 (0,63)

11,51 (0,66)

11,74 (0,77)

11,51 (0,86)

11,86 (0,74)

14,05 (1,03)

diabetes1

22,34 (1,05)

21,98 (0,59)

21,93 (0,46)

21,51 (0,43)

21,41 (0,16)

24,10 (1,91)

glass1

28,68 (1,73)

26,98 (1,55)

26,98 (1,79)

26,41 (0)

26,60 (0,60)

32,70 (5,34)

heart1

21,00 (1,26)

21,87 (0,98)

21,70 (0,69)

21,43 (0,58)

21,26 (0,52)

19,72 (0,96)

horse1

36,15 (3,38)

37,25 (3,04)

37,25 (1,90)

38,02 (2,85)

36,48 (1,85)

29,19 (2,62)

Результаты экспериментов показывают, что в ряде случаев (задачи card1, diabetes1, glass1) удается добиться повышения точности классификации, а в других случаях (задачи cancer1, heart1, horse1) точность классификации падает. При этом если в задачах heart1 и horse1 «отставание» рассматриваемого подхода небольшое (хотя и статистически значимое, с уровнем значимости 0,05), то для задачи horse1 разница в точности классификации весьма существенная и составляет 7-9 процентов в зависимости от длительности обучения ИНС-2.

Дополнительное исследование зависимости ошибки классификации от длительности обучения ИНС-1 (10, 20, 30, 40 и 50 поколений), при 100 эпохах обучения ИНС-2, показали (табл. 2), что для задачи heart1 точность классификации с ростом количества поколений обучения ИНС-1 повышается, а затем начинает уменьшаться. Для задач cancer1 и horse1 эта закономерность также наблюдается, но улучшений недостаточно, чтобы показать результаты, превосходящие таковые из [Prechelt, 1994].

Табл. 2. Зависимость средней и СКО ошибки классификации на тестовом множестве от длительности обучения ИНС-1. Длительность обучения ИНС-2 равнялась 100 эпохам

Задача

Длительность обучения ИНС-1, поколения

Результаты из [Prechelt, 1994]

10

20

30

40

50

cancer1

2,36 (0,18)

2,76 (0,53)

2,24 (0,18)

3,05 (0,39)

2,41 (0,24)

1,38 (0,49)

card1

10,17 (0,63)

11,16 (0,86)

11,16 (0,90)

10,99 (1,14)

11,40 (0,68)

14,05 (1,03)

diabetes1

22,34 (1,05)

23,39 (0,57)

22,08 (0,56)

22,81 (0,77)

23,45 (0,74)

24,10 (1,91)

glass1

28,68 (1,73)

35,28 (1,55)

34,34 (1,73)

33,40 (2,68)

36,23 (1,95)

32,70 (5,34)

heart1

21 (1,26)

17,74 (1,02)

18,65 (1,29)

18,87 (0,80)

17,87 (0,95)

19,72 (0,96)

horse1

36,15 (3,38)

39,89 (3,20)

34,40 (3,84)

40,44 (4,88)

40,44 (3,83)

29,19 (2,62)

Отметим, что для задач, в которых были показаны сравнительно хорошие результаты, в ряде случаев имеется тенденция к снижению точности классификации с ростом числа поколений для обучения ИНС-1, что, вероятно, можно объяснить переобучением этой сети.

Исследование зависимости результатов классификации от размеров выходного слоя ИНС-1, количества t1 поколений обучения ИНС-1 и эпох t2 для обучения ИНС-2 (табл. 3), выявило, что увеличение ? приводит к повышению точности классификации, в частности, во многих случаях результаты улучшились при ? = 2,5. Однако в ряде случаев этого улучшения недостаточно, чтобы показать результат, превосходящий «традиционное» обучение ИНС.

Табл. 3. Зависимость средней и СКО ошибки классификации на тестовом множестве для задач cancer1 и horse1 от размеров выходной слоя ИНС-1. Длительность обучения ИНС-2 равнялась 100 эпохам

Задача

Значение ?

0,5

1,0

1,5

2,0

2,5

3,0

cancer1, t1=10, t2=100

3,33 (0,53)

3,91 (0,24)

5,80 (0,42)

2,36 (0,18)

2,07 (0,73)

2,59 (0,49)

cancer1, t1=20, t2=100

3,56 (0,24)

2,36 (0,33)

2,87 (0,27)

2,76 (0,53)

2,07 (0,30)

2,53 (0,30)

cancer1, t1=10, t2=200

3,98 (0,18)

3,39 (0,18)

6,32 (0,27)

2,70 (0,28)

2,36 (0,33)

3,74 (0,62)

cancer1, t1=20, t2=200

3,16 (0,30)

2,99 (0,24)

2,64 (0,40)

2,36 (0,33)

1,78 (0,18)

2,30 (0)

horse1, t1=10, t2=100

35,16 (1,94)

42,18 (2,21)

34,84 (3,66)

36,15 (3,38)

34,18 (3,29)

36,04 (2,12)

horse1, t1=20, t2=100

39,89 (1,94)

42,31 (1,49)

36,15 (2,95)

39,89 (3,20)

37,25 (4,62)

40,55 (2,61)

horse1, t1=10, t2=200

38,68 (1,78)

40,22 (1,73)

36,15 (2,16)

37,25 (3,04)

36,04 (3,06)

38,68 (4,17)

horse1, t1=20, t2=200

39,01 (2,50)

40,22 (3,12)

36,15 (3,17)

41,54 (2,19)

36,92 (4,12)

40,33 (1,72)

Таким образом, в 2 задачах из 6 рассматриваемых не удалось добиться улучшения результатов классификации. И если для задачи cancer1 во многих случаях разница точности классификации с результатом из [Prechelt, 1994] в абсолютном выражении была небольшой, то для задачи horse1, она иногда превышала 10 %.

Результаты исследований показали, что возможно улучшение точности классификации при преобразовании пространства входных признаков, с помощью ИНС, обучаемой эволюционным алгоритмом.

Отметим, что наилучшие результаты для рассматриваемого подхода достигались, как правило, при небольшом количестве поколений и эпох для обучения соответственно ИНС-1 и ИНС-2. С ростом значений этих параметров в ряде случаев наблюдалось падение точности классификации.

Полученные в проведенном исследовании результаты неполны и оставляют немало открытых вопросов. В частности:

1. Результаты получены по однократному обучению ИНС-1 и поэтому могут не являться объективными.

2. Как изменятся результаты, если добавить скрытые слои в ИНС-1 и ИНС-2 и рассмотреть большие диапазоны длительности обучения и значения коэффициента?

В [Cover, 1965] показано, что разделяющая емкость дискриминантной функции порядка k для случайных образов пропорциональна , поэтому можно предположить, что использование функций активации порядка выше 1 способно дать большую различимость объектов из разных классов. Однако, следует заметить, что среди всех возможных дихотомий только малая часть может оказаться «полезной».

В целом, можно сделать вывод, что увеличение размерности входного пространства даже в случае адаптации преобразования не гарантирует повышение точности классификации и в некоторых случаях способно существенно снизить результаты нейросетевой классификации.

Список литературы

1. Bengio Y., LeCun Y. Scaling Learning Algorithms towards AI / In Bottou L., Chapelle O., De Coste D., and Weston J. (Eds): Large-Scale Kernel Machines. - MITPress, 2007.

2. Cover T.M. Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition // IEEE Transactions on Electronic Computers. 1965. EC Vol. 14(3).

3. Jaeger H., Haas H. Harnessing Nonlinearity: Predicting Chaotic Systems and Saving Energy in Wireless Communication // Science. 2004. Vol. 304 (5667).

4. Prechelt L. PROBEN1 - a set of neural network benchmark problems and benchmarking rules. Technical Report 21/94. - Fakultat fur Informatik, Universitat Karlsruhe, Karlsruhe, Germany, 1994.

5. Suganthan P.N. Pattern classification using multiple hierarchical overlapped self-organising maps // Pattern Recognition. 2001. Vol. 34(11).

6. Vapnik V. Statistical Learning Theory. - New York: Wiley-Interscience, 1998.

7. Yogananda A.P., M Narasimha M., Lakshmi G. A fast linear separability test by projection of positive points on subspaces // Proc. of the 24-th International Conference on Machine Learning, Corvallis, OR. 2007.

Размещено на Allbest.ru

...

Подобные документы

  • Математическая модель искусственной нейронной сети. Структура многослойного персептрона. Обучение без учителя, методом соревнования. Правило коррекции по ошибке. Метод Хэбба. Генетический алгоритм. Применение нейронных сетей для синтеза регуляторов.

    дипломная работа [1,5 M], добавлен 17.09.2013

  • Разработка алгоритма и программы для распознавания пола по фотографии с использованием искусственной нейронной сети. Создание алгоритмов: математического, работы с приложением, установки весов, реализации функции активации и обучения нейронной сети.

    курсовая работа [1,0 M], добавлен 05.01.2013

  • Обучение простейшей и многослойной искусственной нейронной сети. Метод обучения перцептрона по принципу градиентного спуска по поверхности ошибки. Реализация в программном продукте NeuroPro 0.25. Использование алгоритма обратного распространения ошибки.

    курсовая работа [1019,5 K], добавлен 05.05.2015

  • Описание структурной схемы искусственного нейрона. Характеристика искусственной нейронной сети как математической модели и устройств параллельных вычислений на основе микропроцессоров. Применение нейронной сети для распознавания образов и сжатия данных.

    презентация [387,5 K], добавлен 11.12.2015

  • Разработка приложения, целью которого ставится преобразование черно-белых полутоновых изображений в цветные. Обзор методики обработки изображения, способов преобразования изображения с помощью нейронной сети. Описания кластеризации цветового пространства.

    дипломная работа [6,3 M], добавлен 17.06.2012

  • Моделирование пространства и способы представления пространственных объектов. Хранение и извлечение пространственных объектов. Применение географических баз данных. Классификация объектов на основе размерности. Мозаичное и векторное представление.

    презентация [179,5 K], добавлен 11.10.2013

  • Различные методы решения задачи классификации. Нейросетевые парадигмы, методы обучения нейронных сетей, возникающие при этом проблемы и пути их решения. Описание программной реализации классификатора, его функциональные возможности и результаты обучения.

    дипломная работа [1,0 M], добавлен 28.12.2015

  • Механизм работы нервной системы и мозга человека. Схема биологического нейрона и его математическая модель. Принцип работы искусственной нейронной сети, этапы ее построения и обучения. Применение нейронных сетей в интеллектуальных системах управления.

    презентация [98,6 K], добавлен 16.10.2013

  • Выявление закономерностей и свойств, применимых в искусственной нейронной сети. Построение графиков и диаграмм, определяющих степень удаленности между объектами. Моделирование, тестирование и отладка программной модели, использующей клеточный автомат.

    дипломная работа [4,1 M], добавлен 25.02.2015

  • Изучение сути искусственных нейронных сетей. Векторные пространства. Матрицы и линейные преобразования векторов. Биологический нейрон и его кибернетическая модель. Теорема об обучении персептрона. Линейная разделимость и персептронная представляемость.

    курсовая работа [239,7 K], добавлен 06.06.2012

  • Прогнозирование валютных курсов с использованием искусственной нейронной сети. Общая характеристика среды программирования Delphi 7. Существующие методы прогнозирования. Характеристика нечетких нейронных сетей. Инструкция по работе с программой.

    курсовая работа [2,2 M], добавлен 12.11.2010

  • Математическая модель нейронной сети. Однослойный и многослойный персептрон, рекуррентные сети. Обучение нейронных сетей с учителем и без него. Алгоритм обратного распространения ошибки. Подготовка данных, схема системы сети с динамическим объектом.

    дипломная работа [2,6 M], добавлен 23.09.2013

  • Изучение и реализация системы, использующей возможности Microsoft Azure для распределенного обучения нейронной сети. Рассмотрение функционирования распределенных вычислений. Выбор задачи для исследования; тестирование данного программного ресурса.

    дипломная работа [2,0 M], добавлен 20.07.2015

  • Этап предварительной обработки данных, классификации, принятия решения. Изображения обучающих рукописных символов, тестового символа. Выход нейронной сети для тестового символа. График тренировки нейронной сети. Последовательность точек. Входные вектора.

    статья [245,7 K], добавлен 29.09.2008

  • Понятие арифметического точечного пространства. Различные виды плоскостей в пространстве. Общая задача оптимизации. Геометрия задачи линейного программирования. Графический метод решения задачи линейного программирования при малом количестве переменных.

    курсовая работа [756,9 K], добавлен 29.05.2014

  • Нейронные сети и оценка возможности их применения к распознаванию подвижных объектов. Обучение нейронной сети распознаванию вращающегося трехмерного объекта. Задача управления огнем самолета по самолету. Оценка экономической эффективности программы.

    дипломная работа [2,4 M], добавлен 07.02.2013

  • Базовые архитектуры компьютеров: последовательная обработка символов по заданной программе и параллельное распознавание образов по обучающим примерам. Искусственные нейронные сети. Прототип для создания нейрона. Поведение искусственной нейронной сети.

    контрольная работа [229,5 K], добавлен 28.05.2010

  • Понятие искусственного нейрона и искусственных нейронных сетей. Сущность процесса обучения нейронной сети и аппроксимации функции. Смысл алгоритма обучения с учителем. Построение и обучение нейронной сети для аппроксимации функции в среде Matlab.

    лабораторная работа [1,1 M], добавлен 05.10.2010

  • Этапы решения задачи классификации цифр арабского алфавита на основе нейронных сетей: выбор класса, структуры и пакета нейронной сети, ее обучение, требования к информационной и программной совместимости, составу и параметрам технических средств.

    реферат [111,6 K], добавлен 19.10.2010

  • Проблема гидроакустической классификации целей как актуальная проблема современной гидроакустики. Применение нейросетевых алгоритмов и отдельных парадигм для решения научно-технических задач. Выбор структуры нейронной сети для распознавания изображений.

    реферат [284,2 K], добавлен 04.05.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.