Введение в экспертные системы
Сущность экспертных систем как самостоятельного направления в искусственном интеллекте. Основные правила их проектирования. Средства разработки экспертных систем. Понятие сигмоидального нейрона и звезд Гроссберга. Структура многослойного персептрона.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курс лекций |
Язык | русский |
Дата добавления | 21.05.2013 |
Размер файла | 1,4 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Существуют различные способы подбора значений , называемого в теории нейронных сетей коэффициентом обучения. Простейший из них основан на фиксации постоянного значения на весь период оптимизации. Этот способ практически используется только совместно с методом наискорейшего спуска. Он имеет низкую эффективность, поскольку значение коэффициента обучения никак не зависит от вектора фактического градиента и, следовательно, от направления p на данной итерации. Величина подбирается, как правило, раздельно для каждого слоя сети с использованием различных эмпирических зависимостей. Один из походов состоит в определении минимального значения для каждого слоя по формуле
, (3.4)
где обозначает количество входов i-го нейрона в слое.
Наиболее эффективный, хотя и наиболее сложный, метод подбора коэффициента обучения связан с направленной минимизацией целевой функции в выбранном заранее направлении . Необходимо так подобрать скалярное значение , чтобы новое решение соответствовало минимуму целевой функции в данном направлении . В действительности получаемое решение только с определенным приближением может считаться настоящим минимумом. Это результат компромисса между объемом вычислений и влиянием величины на сходимость алгоритма.
Опишем метод аппроксимации целевой функции E(w) в предварительно выбранном направлении с последующим расчетом минимума, получаемого таким образом, функции одной переменной . Выберем для аппроксимации многочлен второго порядка вида
, (3.5)
где , и обозначены коэффициенты, определяемые в каждом цикле оптимизации. Выражение (3.5) - это многочлен P2 одной скалярной переменной . Если для расчета входящих в P2 коэффициентов используются три произвольные точки , и , лежащие в направлении , т.е. , , (в этом выражении w обозначено предыдущее решение), а соответствующие этим точкам значения целевой функции E(w) обозначены , , , то
. (3.6)
Коэффициенты , и многочлена P2 рассчитываются в соответствии с системой линейных уравнений, описываемых в (3.6). Для определения минимума этого многочлена его производная приравнивается к нулю, что позволяет получить значение в виде . После подстановки выражений , и в формулу расчета получаем:
(3.7)
Применение градиентных методов, в которых кроме значения функции учитывается и её производная вдоль направляющего вектора , позволяют значительно ускорить достижение минимума, так как используют информацию о направлении уменьшения величины целевой функции. В этом случае применяется аппроксимирующий многочлен третьей степени:
(3.8)
Значения четырёх коэффициентов этого многочлена можно получить исходя из информации о величине функции и её производной в двух точках. Если приравнять к нулю производную многочлена относительно , то можно получить формулу для расчёта в виде:
(3.9)
3.3.3 Алгоритм обратного распространения ошибки
Алгоритм обратного распространения ошибки определяет стратегию подбора весов многослойной сети с применением градиентных методов оптимизации. В настоящее время считается одним из наиболее эффективных алгоритмов обучения многослойной сети. При обучении ставится задача минимизации целевой функции, формируемой, как правило, в виде квадратичной суммы разностей между фактическими и ожидаемыми значениями выходных сигналов, которая для P обучающих выборок определяется по формуле:
(3.10)
В случае единичной обучающей выборки (x,d) целевая функция имеет вид:
(3.11)
Уточнение весов может проводиться после предъявления каждой обучающей выборки (так называемый режим «онлайн»), при этом используется целевая функция вида (3.9), либо однократно после предъявления всех обучающих выборок (режим «оффлайн»), при этом используется целевая функция вида (3.10). В последующем изложении используется целевая функция вида (3.11).
Для упрощения можно считать, что цель обучения состоит в таком определении значений весов нейронов каждого слоя сети, чтобы при заданном входном векторе получить на выходе значения сигналов , совпадающие с требуемой точностью с ожидаемыми значениями при s= 1, 2,…,M.
Обучение сети с использованием алгоритма обратного распространения ошибки проводится в несколько этапов.
На первом из них предъявляется обучающая выборка x и рассчитываются значения сигналов соответствующих нейронов сети. При заданном векторе x определяются вначале значения выходных сигналов vi скрытого слоя, а затем значения ys выходного слоя. Для расчета применяются формулы (3.1) и (3.2). После получения значений выходных сигналов становится возможным рассчитать фактическое значение целевой функции ошибки E(w).
На втором этапе минимизируется значение этой функции.
Так как целевая функция непрерывна, то наиболее эффективными методами обучения оказываются градиентные алгоритмы, согласно которым уточнение вектора весов (обучение) производится по формуле:
, (3.12)
где , (3.13)
- коэффициент обучения, а p(w) - направление в многомерном пространстве w. В алгоритме обратного распространения ошибки p(w) определяется как частная производная , взятая со знаком минус.
Обучение многослойной сети с применением градиентных методов требует определения вектора градиента относительно весов всех слоев сети, что необходимо для правильного выбора направления p(w). Эта задача имеет очевидное решение только для весов выходного слоя. Для других слоев используется алгоритм обратного распространения ошибки, который определяется следующим образом [4]:
Подать на вход сети вектор x и рассчитать значения выходных сигналов нейронов скрытых слоев и выходного слоя, а также соответствующие производные функций активации каждого слоя (m - количество слоев).
Создать сеть обратного распространения ошибок путем изменения направления передачи сигналов, замены функций активации их производными и подачи на бывший выход сети в качестве входного сигнала разности между фактическими и ожидаемыми значениями. Уточнить веса по формулам (3.12) и (3.13) на основе результатов, полученных в п.1 и п.2 для исходной сети и для сети обратного распространения ошибки. Пункты 1, 2, 3 повторить для всех обучающих выборок, вплоть до выполнения условия остановки: норма градиента станет меньше заданного значения , характеризующего точность обучения. Рассмотрим основные расчетные формулы для сети с одним скрытым слоем, представленной на рисунке 3.2. Используется сигмоидальная функция активации, при этом в случае гиперболического тангенса производная функции активации равна
(3.14)
В случае логистической функции производная равна
(3.15)
В формулах (3.14) и (3.15) под переменной u будем понимать выходные сигналы сумматоров нейронов скрытого или выходного слоя, представленных формулами (3.16) и (3.17).
(3.16)
(3.17)
Уточнение весовых коэффициентов будем проводить после предъявления каждой обучающей выборки. Минимизация ведется методом градиентного спуска, что означает подстройку весовых коэффициентов следующим образом:
(3.18)
Здесь - весовой коэффициент синаптической связи, соединяющей i-ый нейрон слоя m-1 с j-ым нейроном слоя m, - коэффициент обучения, 0<<1.
С учетом принятых на рисунке 3.2 обозначений целевая функция для выходного слоя нейронов определяется следующим образом:
(3.19)
(3.20)
Здесь под , как и раньше, подразумевается выход s -го нейрона.
Если ввести обозначение , то соотношение (3.20) можно представить в виде:
(3.21)
Компоненты градиента относительно нейронов скрытого слоя описываются более сложной зависимостью:
(3.22)
В другом виде эта зависимость может быть выражена формулой:
(3.23)
Если ввести обозначение
, (3.24)
то получим выражение, определяющее компоненты градиента относительно весов нейронов скрытого слоя в виде:
(3.25)
3.3.4 Алгоритм потоковых графов
Формулы для расчёта градиента довольно сложны и неудобны для практического применения, особенно если сеть содержит более одного скрытого слоя. Алгоритм потоковых графов представляет собой альтернативный метод расчета компонентов градиента на основе анализа чувствительности сети методом сопряженных элементов [4]. В теории систем под полной чувствительностью объекта понимается производная любого циркулирующего в нем сигнала относительно значений весов, которая может быть рассчитана на основании знаний о сигналах, распространяющихся по обычному графу (обозначим ) и по сопряженному с ним графу (обозначим ). Граф определяется как исходный граф , в котором направленность всех дуг изменена на противоположную. Линейная дуга графа и соответствующая ей дуга сопряженного графа имеют идентичные описания. В случае нелинейной связи , где - входной сигнал, а - параметр, соответствующая ей дуга графа линеаризуется с коэффициентом , рассчитанным для фактического входного сигнала графа .
Метод расчета чувствительности нейронной сети с использованием потоковых графов основан на анализе исходного графа и сопряженного с ним графа при возбуждении последнего единичным сигналом, подаваемым на вход . Чувствительность графа относительно параметров дуг этого графа к произвольному входному сигналу можно выразить следующим образом:
для линейной дуги графа :
, (3.26)
где - это коэффициент усиления линейной дуги, направленной от -го узла к -му, обозначает сигнал -го узла графа , а - сигнал -го узла сопряженного графа , для которого в качестве сигнала задается значение ;
Для нелинейной дуги графа , объединяющий -й и -й узлы и описываемой функцией , чувствительность относительно параметра определяется выражением
, (3.27)
где рассчитывается для сигнала -го узла графа .
Обозначим вектор оптимизированных параметров (весов ) системы, представленной графом , , а - целевую функцию. Тогда градиент можно определить в виде
. (3.28)
Если представить целевую функцию в форме, учитывающей только одну обучающую выборку
, (3.29)
где обозначено ожидаемое значение -го выходного нейрона, , то градиент целевой функции принимает вид:
, (3.30)
где . (3.31)
Для задания вектора градиента также необходимы производные выходных сигналов графа относительно весов , умноженные на величину погрешности . Способ формирования сопряженного графа и методика его возбуждения для автоматического расчета вектора градиента на основе анализа только двух графов и представлена на рис. 3.3 и 3.4 соответственно. При замене всех единичных возбуждений в на любой компонент вектора градиента может быть рассчитан по соответствующим сигналам исходного графа и сопряженного с ним точно так же, как и при определении обычной чувствительности.
Для линейной дуги графа , описываемой весом , формула имеет вид:
. (3.32)
Для нелинейной дуги графа , описываемой функцией , получаем:
. (3.33)
Размещено на http://www.allbest.ru/
Рисунок 3.3 Исходный граф
Размещено на http://www.allbest.ru/
Рисунок 3.4 Сопряженный граф
Представленные выражения применимы для любых систем систем (линейных, нелинейных, рекуррентных и т.п.). Они практически применяются для анализа однонаправленных многослойных нейронных сетей, описываемых потоковым графом прохождения сигналов.
Рассмотрим применение алгоритма потоковых графов применительно к двухслойному персептрону с произвольной функцией активации. На рисунке 3.5 представлен исходный граф сети, на рисунке 3.6 - сопряжённый граф. Выходные сигналы нейронов в скрытом слое обозначим , а в выходном слое , причём .
Размещено на http://www.allbest.ru/
Рисунок 3.6 Исходный граф сети
Размещено на http://www.allbest.ru/
Рисунок 3.7 Сопряжёный граф сети
На входы сопряжённого графа подаётся разность между фактическими значениями и эталонными значениями . Нелинейные дуги исходного графа в каждой точке заменяются производными . Поэтому, для каждой точки входного слоя сопряжённого графа выполняется соотношение:
а для каждой точки выходного слоя сопряжённого графа верно:
Если функция активации имеет сигмоидальную униполярную форму, то её производная в точке рассчитывается по формуле
.
Таким образом, можно рассчитать конкретные компоненты вектора градиента для любого слоя нейронов:
для выходного слоя
; (3.34)
для скрытого слоя
. (3.35)
3.3.5 Алгоритм наискорейшего спуска
Если при разложении целевой функции E(w) в ряд Тейлора ограничиться ее линейным приближением, то мы получим алгоритм наискорейшего спуска. Для выполнения соотношения достаточно подобрать . Условию уменьшения значения целевой функции отвечает выбор вектора направления
. (3.36)
В этом случае коррекция весовых коэффициентов производится по формуле:
(3.37)
В другом виде формулу коррекции весов по методу наискорейшего спуска можно представить следующим образом:
(3.38)
Ограничение слагаемым первого порядка при разложении функции в ряд Тейлора, не позволяет использовать информацию о ее кривизне. Это обуславливает линейную сходимость метода. Указанный недостаток, а также резкое замедление минимизации в ближайшей окрестности точки оптимального решения, когда градиент принимает очень малые значения, делают алгоритм наискорейшего спуска низкоэффективным. Тем не менее, простота, невысокие требования к объему памяти и относительно невысокая вычислительная сложность, обуславливают широкое использование алгоритма. Повысить эффективность удается путем эвристической модификации выражения, определяющего направление градиента.
Одна из модификаций получила название алгоритма обучения с моментом. При этом подходе уточнение весов сети производится по формуле:
(3.39)
где - это коэффициент момента, принимающий значения в интервале [0, 1].
Первое слагаемое в формуле (3.39) соответствует алгоритму наискорейшего спуска, а второе слагаемое учитывает последнее изменение весов и не зависит от фактического значения градиента. Чем больше значение коэффициента , тем большее значение оказывает показатель момента на подбор весов. При постоянном значении коэффициента обучения приращение весов остается примерно одинаковым, то есть , поэтому эффективное приращение весов можно писать формулой:
(3.40)
При значении =0,9 это соответствует десятикратному увеличению значения коэффициента обучения и, следовательно, десятикратному ускорению процесса обучения. При малых значениях градиента показатель момента начинает доминировать, что приводит к такому приращению весов, которое соответствует увеличению значения целевой функции, позволяющему выйти из зоны локального минимума. Однако показатель момента, не должен доминировать на протяжении всего процесса обучения, поскольку это приводит к нестабильности алгоритма. На практике, увеличение целевой функции не допускается больше, чем на 4%. В противном случае, . При этом показатель градиента начинает доминировать над показателем момента и процесс развивается в направлении минимизации, заданном вектором градиента [4].
3.3.6 Алгоритм переменной метрики
В алгоритме переменной метрики используется квадратичное приближение целевой функции E(w), представленной формулой (3.3) в окрестности полученного решения .
Для достижения минимуму целевой функции требуется, чтобы . При выполнении соответствующего дифференцирования можно получить условие оптимальности в виде:
,
откуда следует
(3.40)
Формула (3.40) однозначно указывает направление pt, которое гарантирует достижение минимального для данного шага значения целевой функции. Из него следует, что для определения этого направления необходимо в каждом цикле вычислять значение градиента g и гессиана H в точке последнего решения .
Формула (3.40), представляющая собой основу ньютоновского алгоритма оптимизации, является чисто теоретическим выражением, поскольку ее применение требует положительной определенности гессиана на каждом шаге, что практически не осуществимо. Поэтому в реальных алгоритмах вместо точно определенного гессиана используется его приближение .
Основная идея метода переменной метрики заключается в том, что на каждом шаге гессиан или обратная ему величина, полученная на предыдущем шаге, модифицируются на величину некоторой поправки для обеспечения условия положительной определенности гессиана. Если прирост вектора и градиента g на двух последовательных шагах итерации обозначить соответственно и , то есть и , а матрицу, обратную приближению гессиана , обозначить V, то в соответствии с формулой Бройдена-Флетчера-Гольдфарба-Шенно процесс уточнения матрицы V можно описать рекуррентной зависимостью [4]:
(3.41)
Метод переменной метрики характеризуется более быстрой сходимостью, чем метод наискорейшего спуска. Именно этот метод считается в настоящее время одним из наиболее эффективных способов оптимизации функции нескольких переменных. Применяется для не очень больших сетей, так как требует относительно большой вычислительной сложности, связанной с необходимостью расчета в каждом цикле элементов гессиана, и значительных объемов памяти.
Алгоритм Левенберга-Марквардта
В данном алгоритме используется квадратичное приближение целевой функции E(w), представленной формулой (2.3) в окрестности полученного решения .
Для достижения минимуму целевой функции требуется, чтобы . При выполнении соответствующего дифференцирования можно получить условие оптимальности в виде:
,
откуда следует
(2.29)
Формула (2.29) однозначно указывает направление которое гарантирует достижение минимального для данного шага значения целевой функции. Из него следует, что для определения этого направления необходимо в каждом цикле вычислять значение градиента g и гессиана H в точке последнего решения .
Формула (2.29) представляет собой основу ньютоновского алгоритма оптимизации и является чисто теоретическим выражением, поскольку ее применение требует положительной определенности гессиана на каждом шаге, что практически не осуществимо. Поэтому в реальных алгоритмах вместо точно определенного гессиана используется его приближение , которое в алгоритме Левенберга-Марквардта рассчитывается на основе содержащейся в градиенте информации с учётом некоторого регуляризационного фактора [4].
Для описания данного метода представим целевую функцию в виде:
, (2.30)
где . При использовании обозначений
. (2.31)
Вектор градиента и аппроксимированная матрица гессиана, соответствующие целевой функции (2.30) на -ом шаге алгоритма, определяются в виде:
, (2.32)
, (2.33)
где обозначены компоненты гессиана , содержащие высшие производные относительно . Аппроксимация осуществляется с помощью регуляризационного фактора , в котором переменная называется параметром Левенберга-Марквардта и является скалярной величиной, изменяющейся в процессе обучения.
Таким образом:
. (2.34)
В начале процесса обучения, когда текущее решение далеко от искомого решения, следует использовать значение параметра намного превышающее . В этом случае гессиан фактически заменяется регуляризационным фактором:
, (2.35)
а направление минимизации выбирается по методу наискорейшего спуска:
. (2.36)
По мере приближения к искомому решению величина параметра понижается и первое слагаемое в формуле (2.34) начинает играть более важную роль. Таким образом, на эффективность алгоритма влияет правильный выбор величины . В методике, предложенной Д.Марквардтом, значение изменяется по следующей схеме:
;
;
,
где обозначают значения целевой функции и параметра на -ом и -ом шагах алгоритма, а - обозначает коэффициент уменьшения .
Такая процедура изменения применяется до момента, когда коэффициент верности отображения, рассчитываемый по формуле достигнет значения, близкого к единице.
, (2.37)
При этом квадратичная аппроксимация целевой функции имеет высокую степень совпадения с истинными значениями, следовательно, регуляризационный фактор в формуле (2.34) может быть приравнен нулю, а процесс определения гессиана сводится к аппроксимации первого порядка, при этом алгоритм Левенберга-Марквардта превращается в алгоритм Гаусса-Ньютона, имеющему квадратичную сходимость.
3.4 Эвристические алгоритмы обучения многослойного персептрона
3.4.1 Алгоритм RPROP
Простой эвристический алгоритм, демонстрирующий высокую эффективность обучения, - это алгоритм М. Ридмиллера и Х. Брауна, называемый RPROP [9]. В этом алгоритме при уточнении весов учитывается только знак градиентной составляющей, а ее значение игнорируется:
(3.42)
Коэффициент обучения подбирается индивидуально для каждого веса с учетом изменения значения градиента:
, (3.43)
где , a и b - константы: a=1.2; b=0.5. Минимальное и максимальное значения коэффициента обучения составляют и . Функция sgn( ) принимает значение, равное знаку градиента.
3.5 Алгоритмы глобальной оптимизации
3.5.1 Алгоритм имитации отжига
Все представленные ранее методы обучения нейронных сетей являются локальными. Они ведут к одному из локальных минимумов целевой функции, лежащему в окрестности точки начала обучения. Только в ситуации, когда значение глобального минимума известно, удается оценить, находится ли найденный локальный минимум в достаточной близости от искомого решения. Если локальное решение признается неудовлетворительным, следует повторить процесс обучения при других начальных значениях весов и с другими управляющими параметрами.
При решении реальных задач в общем случае даже приблизительная оценка глобального минимума оказывается неизвестной. По этой причине возникает необходимость применения методов глобальной оптимизации. Рассмотрим метод имитации отжига.
Название данного алгоритма связано с методами имитационного моделирования в статистической физике, основанными на методе Монте-Карло. Исследование кристаллической решетки и поведения атомов при медленном остывании тела привело к появлению на свет вероятностных алгоритмов, которые оказались чрезвычайно эффективными в комбинаторной оптимизации.
Классический алгоритм имитации отжига:
1. Запустить процесс из начальной точки w при заданной начальной температуре .
2. Пока T>0 повторить L раз следующие действия:
2.1. Выбрать новое решение w' из окрестности w.
2.2. Рассчитать значение целевой функции .
2.3. Если , принять w= w', в противном случае принять, что w= w' с вероятностью путем генерации случайного числа R из интервала (0,1) с последующим его сравнением со значением ; если >R, принять новое решение w= w'; в противном случае проигнорировать новое решение.
3. Уменьшить температуру (T< rT) с использованием коэффициента уменьшения r, выбираемого из интервала (0,1), и вернуться к п.2.
4. После снижения температуры до нулевого значения провести обучение сети любым из представленных выше детерминированных методов, вплоть до достижения минимума целевой функции.
3.5.2 Проектирование архитектуры многослойного персептрона
Для решения какой-либо задачи с применением искусственной нейронной сети следует, прежде всего, спроектировать структуру сети, адекватную поставленной задаче. При проектировании нейронной сети необходимо решить вопрос о числе слоев и нейронов в каждом слое, а также определить необходимые связи между слоями.
Подбор числа нейронов во входном слое обусловлен размерностью входного вектора x. Число нейронов выходного слоя принимается равным размерности эталонного вектора d. Серьезной проблемой остается подбор числа скрытых слоев и числа нейронов в каждом из них.
Теоретическое решение этой задачи в смысле условия достаточности было предложено математиками, занимающимися аппроксимацией функций нескольких переменных. Следует отметить, что нейронная сеть выступает в роли универсального аппроксиматора обучающих данных (x,d) [1, 2, 3].
Определение минимального числа скрытых слоев сети основано на использовании свойств аппроксимирующих функций. Возможность такого обобщения следует из теорем А.Н. Колмогорова [2,3] и из теоремы об универсальной аппроксимации, которую можно рассматривать как естественное расширение теоремы Вейерштрасса [1]. Пусть N- число входных узлов многослойного персептрона, а M- число выходных нейронов сети. Тогда теорема об универсальной аппроксимации формулируется следующим образом [5]:
Пусть (.)- ограниченная, не постоянная монотонно возрастающая непрерывная функция. Пусть - N- мерный единичный гиперкуб . Пусть пространство непрерывных на функций обозначается символом . Тогда для любой функции и >0 существует такое целое число K и множество действительных констант , и , где i=1,…,K, j=1,..,N, что
(2.39)
является реализацией аппроксимации функции f(.), то есть
(2.40)
для всех , принадлежащих входному пространству.
Теорема об универсальной аппроксимации непосредственно применима к многослойному персептрону. Во-первых, в модели многослойного персептрона в качестве функций активации используются ограниченные, монотонно возрастающие сигмоидальные функции, удовлетворяющие условиям, накладываемым теоремой на функцию (.). Во-вторых, выражение (2.39) описывает выходной сигнал сети следующего вида:
Сеть содержит N входных узлов и один скрытый слой, состоящий из M нейронов. Входы обозначены .
Скрытый нейрон i имеет синаптические веса и - вес порогового элемента.
Выход сети представляет собой линейную комбинацию выходных сигналов скрытых нейронов, взвешенных синаптическими весами выходных нейронов - .
Таким образом теорема утверждает, что многослойного персептрона с одним скрытым слоем достаточно для построения равномерной аппроксимации с точностью для любого обучающего множества, представленного набором входов и ожидаемых выходов . Тем не менее, из теоремы не следует, что один скрытый слой является оптимальным в смысле времени обучения, простоты реализации и, что более важно, качества обобщения.
Теорема об универсальной аппроксимации обеспечивает необходимый математический базис для доказательства применимости сетей прямого распространения с одним скрытым слоем для решения задач аппроксимации. Однако она не обеспечивает способ конструирования многослойного персептрона, обладающего такими свойствами.
Кроме того, теорема об универсальной аппроксимации предполагает, что аппроксимируемая непрерывная функция известна, и для ее приближения можно использовать скрытый слой неограниченного размера. На практике эти предположения обычно не верны.
Проблема многослойного персептрона с одним скрытым слоем состоит в том, что нейроны могут взаимодействовать друг с другом на глобальном уровне. При наличии двух скрытых слоев, процесс аппроксимации становится более управляемым. В частности, можно утверждать следующее [5]:
Локальные признаки извлекаются в первом скрытом слое, то есть некоторые нейроны первого скрытого слоя можно использовать для разделения входного пространства на отдельные области, а остальные нейроны слоя обучать локальным признакам, характеризующим эти области.
Глобальные признаки извлекаются во втором скрытом слое. В частности, нейрон второго скрытого слоя «обобщает» выходные сигналы нейронов первого скрытого слоя, относящихся к конкретной области входного пространства. Таким образом, он обучается глобальным признакам этой области, а в остальных областях его выходной сигнал равен нулю.
В практических реализациях сетей чаще всего используются сети с одним скрытым слоем, реже - с двумя, причем число нейронов в слое может изменяться (как правило, от N до 3N) [4].
3.5.3 Подбор оптимальной архитектуры
Одно из важнейших свойств нейронной сети - это способность к обобщению полученных знаний. Сеть, обученная на некотором множестве входных векторов, генерирует ожидаемые результаты при подаче на ее вход тестовых данных, относящихся к тому же множеству, но не участвовавших непосредственно в процессе обучения. В составе обучающих данных можно выделить определенное подмножество контрольных данных, используемых для определения точности обучения сети. В то же время, в составе обучающих данных не должно быть уникальных данных, свойства которых отличаются от ожидаемых значений. Способность сети распознавать данные из тестового подмножества характеризует ее возможности обобщения знаний.
Имеет место компромисс между точностью и обобщающей способностью сети, который можно оптимизировать посредством выбора количества скрытых нейронов для данной сети. Количество скрытых нейронов, с одной стороны, должно быть достаточным. для того чтобы решить поставленную задачу, а с другой - не должно быть слишком большим, чтобы обеспечить необходимую обобщающую способность.
Не существует простого способа для определения необходимого числа скрытых элементов сети. Ряд противоречивых требований накладывается на количество весовых коэффициентов сети.
Во-первых, необходимо иметь достаточное число данных для обучения сети с выбранным числом весовых коэффициентов. Если бы целью обучения было только запоминание обучающих выборок, то их число могло быть равным числу весов. Однако такая сеть не будет обладать свойством обобщения, и сможет только восстанавливать данные. Число весов частично обусловлено числом входных и выходных элементов и, следовательно, методом кодировки входных и выходных данных.
Во-вторых, сеть должна обучаться на избыточном множестве данных, чтобы обладать свойством обобщения. При этом веса будут адаптироваться не к отдельным выборкам, а к их статистически усредненным совокупностям.
Обучение сети ведется путем минимизации целевой функции E(w), определяемой только на подмножестве обучающих данных, что обеспечивает достаточное соответствие выходных сигналов сети ожидаемым значениям из обучающей выборки.
Истинная цель обучения состоит в таком подборе архитектуры и параметров сети, которые обеспечат минимальную погрешность распознавания тестового подмножества данных, не участвовавших в обучении. Критерием правильности окончательных результатов является погрешность обобщения, вычисленная по тестовой выборке.
Со статистической точки зрения погрешность обобщения E зависит от уровня погрешности обучения H и от доверительного интервала и характеризуется отношением (2.41)[5].
(2.41)
где - доверительный интервал, - объем обучающей выборки, - мера Вапника-Червоненкиса .
Мера Вапника-Червоненкиса (VC-измерение) отражает уровень сложности сети и тесно связана с количеством содержащихся в ней весов. Чем больше число различных весов, тем больше сложность сети и соответственно значение VC-измерения. Метод точного определения этой меры неизвестен, но можно определить верхнюю и нижнюю границу этой меры в виде формулы (2.42).
(2.42)
где - количество нейронов в скрытом слое, - размерность входного вектора, - общее количество весов сети, - общее количество нейронов в сети.
Из формулы (2.42) следует, что нижняя граница диапазона приблизительно равна числу весов, связывающих входной и выходной слои, тогда как верхняя граница превышает двукратное суммарное число всех весов сети. В качестве приближенного значения VC-измерения может быть использовано общее число весов нейронной сети.
Таким образом, на погрешность обобщения оказывает влияние отношение количества обучающих выборок к количеству весов сети. Небольшой объем обучающего подмножества при фиксированном количестве весов вызывает хорошую адаптацию сети к его элементам, однако не усиливает способности к обобщению, так как в процессе обучения наблюдается относительное превышение числа подбираемых параметров над количеством пар фактических и ожидаемых выходных сигналов сети. Эти параметры адаптируются с чрезмерной и неконтролируемой точностью к значениям конкретных выборок, а не к диапазонам, которые эти выборки должны представлять. Фактически задача аппроксимации подменяется в этом случае задачей приближенной интерполяции. В результате всякого рода нерегулярности обучающих данных и шумы могут восприниматься как существенные свойства процесса.
На основе опытных данных существуют следующие рекомендации по выбору числа скрытых нейронов:
Не следует выбирать число скрытых нейронов больше, чем удвоенное число входных элементов.
Число обучающих данных должно быть по крайней мере в раз больше количества весов в сети, где - граница ошибки обучения.
Следует выявить особенности нейросети, так как в этом случае требуется меньшее количество скрытых нейронов, чем входов. Если есть сведения, что размерность данных может быть уменьшена, то следует использовать меньшее количество скрытых нейронов.
При обучении на бесструктурных входах необходимо, чтобы количество скрытых нейронов было больше, чем количество входов. Если набор данных не имеет общих свойств, необходимо использовать больше скрытых нейронов.
Имеет место взаимоисключающая связь между обобщающими свойствами (меньше нейронов) и точностью (больше нейронов), которая специфична для каждого приложения.
Большая сеть требует большего времени для обучения.
Существуют также практические рекомендации по модификации алгоритмов конструирования сети:
Если ошибка обучения мала, а ошибка тестирования велика, следовательно, сеть содержит слишком много весовых коэффициентов.
Если и ошибка обучения, и ошибка тестирования велики, следовательно, весовых коэффициентов слишком мало.
Если все весовые коэффициенты очень большие, следовательно, весовых коэффициентов слишком мало.
Добавление весов не панацея; если известно, что весовых коэффициентов достаточно, следует подумать о других причинах ошибок, например о недостаточном количестве обучающих данных.
Не следует добавлять слишком много весовых коэффициентов, чтобы не переступить пределов, установленных ранее.
И, наконец, что очень важно, начальные весовые коэффициенты должны быть случайными и небольшими по величине (например, между +1 и -1).
3.6 Радиальные сети
3.6.1 Математическое обоснование радиально-базисных сетей
Многослойные нейронные сети, с точки зрения математики, выполняют аппроксимацию стохастической функции нескольких переменных путем преобразования множества входных переменных во множество выходных переменных . Вследствие характера сигмоидальной функции активации осуществляется аппроксимация глобального типа, так как преобразование значения функции в произвольной точке пространства выполняется объединенными усилиями многих нейронов.
Другой способ отображения входного множества в выходное множество заключается в преобразовании путем адаптации нескольких одиночных аппроксимирующих функций к ожидаемым значениям, причем эта адаптация проводится только в локальной области многомерного пространства. При таком подходе отображение всего множества данных представляет собой сумму локальных преобразований, а скрытые нейроны составляют множество базисных функций локального типа.
Особое семейство образуют радиальные сети, в которых скрытые нейроны реализуют функции, радиально изменяющиеся вокруг выбранного центра и принимающие ненулевые значения только в окрестности этого центра. Подобные функции, определяемые в виде , называются радиальными базисными функциями. В таких сетях роль скрытого нейрона заключается в отображении радиального пространства вокруг одиночной заданной точки либо вокруг группы таких точек, образующих кластер. Суперпозиция сигналов, поступающих от всех скрытых нейронов, которая выполняется выходным нейроном, позволяет получить отображение всего многомерного пространства.
Сети радиального типа представляют собой естественное дополнение сигмоидальных сетей. Сигмоидальный нейрон представляется в многомерном пространстве гиперплоскостью, которая разделяет это пространство на два класса, в которых выполняется одно из двух условий: либо , либо . Такой подход продемонстрирован на рис. 3.1а. В свою очередь радиальный нейрон представляет собой гиперсферу, которая осуществляет шаровое разделение пространства вокруг центральной точки (рис. 3.1б).
Именно с этой точки зрения радиальный нейрон является естественным дополнением сигмоидального нейрона, поскольку в случае круговой симметрии данных позволяет заметно уменьшить количество нейронов, необходимых для разделения различных классов.
Размещено на http://www.allbest.ru/
Рис. 3.1 Иллюстрация способов разделения пространства данных: а) сигмоидальным нейроном; б) радиальным нейроном
Так как нейроны могут выполнять различные базисные функции, в радиальных сетях отсутствует необходимость использования большого количества скрытых слоев. Структура типичной радиальной сети включает входной слой, на который подаются сигналы, описываемые входным вектором x, скрытый слой с нейронами радиального типа и выходной слой, состоящий, как правило, из одного или нескольких линейных нейронов. Функция выходного нейрона сводится исключительно к взвешенному суммированию сигналов, генерируемых скрытыми нейронами.
Математическую основу функционирования радиальных сетей составляет теорема Т. Ковера о разделимости образов, которая утверждает следующее [5]:
Нелинейное преобразование сложной задачи классификации образов в пространство более высокой размерности повышает вероятность линейной разделимости образов.
Теорема Ковера о разделимости образов базируется на двух моментах [4]:
Определение нелинейной скрытой функции , где x - входной вектор, а i=1,2,…,K, K - размерность скрытого пространства.
Высокая размерность скрытого пространства по сравнению с размерностью входного. Эта размерность определяется значением, присваиваемым K (то есть количеством скрытых нейронов).
Если вектор радиальных функций в N-мер-ном входном пространстве обозначить (x), то это пространство является нелинейно -разделяемым на два пространственных класса X+ и X- тогда, когда существует такой вектор весов w, что
(3.1)
Граница между этими классами определяется уравнением .
Ковер доказал, что каждое множество образов, случайным образом размещенных в многомерном пространстве, является -разделяемым с вероятностью 1 при условии большой размерности K этого пространства. На практике это означает, что применение достаточно большого количества скрытых нейронов, реализующих радиальные функции , гарантирует решение задачи классификации при построении всего лишь двухслойной сети. При этом скрытый слой должен реализовать вектор (x), а выходной слой может состоять из единственного линейного нейрона, выполняющего суммирование выходных сигналов от скрытых нейронов с весовыми коэффициентами, заданными вектором w.
Простейшая нейронная сеть радиального типа функционирует по принципу многомерной интерполяции, состоящей в отображении p различных входных векторов (t=1,2,…,p) из входного N-мерного пространства во множество из p рациональных чисел (t=1,2,…,p). Для реализации этого процесса необходимо использовать p скрытых нейронов радиального типа и задать такую функцию отображения F(x), для которой выполняется условие интерполяции:
. (3.2)
С практической же точки зрения использование в разложении большого числа p базисных функций недопустимо, поскольку число обучающих выборок велико и равно числу радиальных функций, и в результате вычислительная сложность обучающего алгоритма становится чрезмерной, а сама сеть адаптируется к разного рода шумам и нерегулярностям, сопровождающим обучающие выборки. Поэтому необходимо редуцировать количество весов, что приводит к уменьшению количества базисных функций. В этом случае ищется субоптимальное решение в пространстве меньшей размерности, которое с достаточной точностью аппроксимирует точное решение. Если ограничиться K базисными функциями, то аппроксимирующее решение можно представить в виде
, (3.3)
где K < p, а (i=1,2,…,K) - множество центров, которые необходимо определить. В особом случае, если принять K=p, то можно получить точное решение .
Задача аппроксимации состоит в подборе соответствующего количества радиальных функций и их параметров, а также в таком подборе весов (i=1,2,…,K), чтобы решение уравнения (3.3) было наиболее близким к точному. Поэтому проблему подбора параметров радиальных функций и значений весов сети можно свести к минимизации целевой функции, которая при использовании метрики Эвклида записывается в форме
(3.4)
В этом уравнении K представляет количество радиальных нейронов, а p - количество обучающих пар , где - это входной вектор, а - соответствующий ему ожидаемый выходной вектор.
3.6.2 Структура радиально-базисной сети
На рис. 3.2 представлена обобщенная структура радиально-базисной сети. В качестве радиальной функции чаще всего применяется функция Гаусса. При размещении ее центра в точке она может быть определена в сокращенной форме как:
. (3.5)
В этом выражении - параметр, от значения которого зависит ширина функции.
Размещено на http://www.allbest.ru/
Рис. 3.2 Обобщенная структура радиальной сети RBF
Полученное решение, представляющее аппроксимирующую функцию в многомерном пространстве в виде взвешенной суммы локальных базисных радиальных функций (выражение (3.3)), может быть интерпретировано радиальной нейронной сетью, представленной на рис. 3.2, в которой определяется зависимостью (3.5).
Это сеть с двухслойной структурой, в которой только скрытый слой выполняет нелинейное отображение, реализуемое нейронами с базисными радиальными функциями, параметры которых (центры и коэффициенты ) уточняются в процессе обучения. Скрытый слой не содержит линейных весов, аналогичных весам сигмоидальной сети. Выходной нейрон, как правило, линеен, а его роль сводится к взвешенному суммированию сигналов, поступающих от нейронов скрытого слоя. Вес , как и при использовании сигмоидальных функций, представляет пороговый элемент, определяющий показатель постоянного смещения функции.
Полученная архитектура радиальных сетей аналогична структуре многослойной сети с одним скрытым слоем. Роль скрытых нейронов в ней играют базисные радиальные функции. Однако, в отличие от сигмоидальной сети, радиальная сеть имеет фиксированную структуру с одним скрытым слоем и линейными выходными нейронами. Используемые радиальные функции скрытых нейронов могут иметь разнообразную структуру. Нелинейная радиальная функция каждого скрытого нейрона имеет свои значения параметров , тогда как в сигмоидальной сети применяются, как правило, стандартные функции активации с одним и тем же параметром. Аргументом радиальной функции является эвклидово расстояние вектора x от центра и , а в сигмоидальной сети это скалярное произведение векторов .
На рисунке 3.3 приведена детальная структура RBF-сети с радиальной функцией вида (3.5).
Размещено на http://www.allbest.ru/
Рис. 3.3 Детальная структура RBF-сети
Структуру RBF-сети можно усилить путем применения масштабирования входных сигналов. Если принять во внимание, что многомерная функция может иметь различный масштаб по каждой оси, с практической точки зрения оказывается полезным уточнить норму масштабирования путем ввода в определение эвклидовой метрики весовых коэффициентов в виде матрицы Q.
(3.6)
Масштабирующая матрица при N-мерном векторе x имеет вид:
(3.7)
При обозначении произведения матриц матрицей корреляции C в общем случае получим:
(3.8)
Если масштабирующая матрица Q имеет диагональный вид, то получаем . Это означает, что норма масштабирования вектора рассчитывается согласно стандартной формуле Эвклида, с использованием индивидуальной шкалы для каждой переменной . При Q=1 взвешенная метрика Эвклида сводится к классической метрике .
В случае использования функции Гаусса с центром в точке и масштабирующей взвешенной матрицы , связанной с i-й базисной функцией, получим обобщенную форму функции Гаусса:
(3.9),
где матрица играет роль скалярного коэффициента стандартной многомерной функции Гаусса, заданной выражением (3.5).
Во многих практических приложениях масштабирующая матрица для i-го радиального нейрона имеет диагональную форму, в которой только элементы принимают ненулевые значения. В такой системе отсутствует круговое перемешивание сигналов, соответствующих различным компонентам вектора x, а элемент играет роль индивидуального масштабирующего коэффициента для j-го компонента вектора x i-го нейрона. На рис. 3.4 представлена детальная структура сети HRBF с произвольной матрицей . В сетях HRBF роль коэффициентов выполняют элементы матрицы Q, которые уточняются в процессе обучения.
Размещено на http://www.allbest.ru/
Рис. 3.4 Детальная структура радиальной сети HRBF с произвольной масшабирующей матрицей Q
3.7 Основные алгоритмы обучения радиальных сетей
3.7.1 Алгоритм самоорганизации для уточнения параметров радиальных функций
Процесс обучения сети RBF с учетом выбранного типа радиальной базисной функции сводится:
к подбору центров и параметров формы базисных функций (часто используются алгоритмы обучения без учителя);
к подбору весов нейронов выходного слоя (часто используются алгоритмы обучения с учителем).
Подбор количества базисных функций, каждой из которых соответствует один скрытый нейрон, считается основной проблемой, возникающей при корректном решении задачи аппроксимации. Как и при использовании сигмоидальных сетей, слишком малое количество нейронов не позволяет уменьшить в достаточной степени погрешность обобщения множества обучающих данных, тогда как слишком большое их число увеличивает погрешность выводимого решения на множестве тестирующих данных. Подбор необходимого и достаточного количества нейронов зависит от многих факторов. Как правило, количество базисных функций K составляет определенную долю от объема обучающих данных p, причем фактическая величина этой доли зависит от размерности вектора x и от разброса ожидаемых значений , соответствующих входным векторам , для t=1,2,…,p.
Процесс самоорганизации обучающих данных автоматически разделяет пространство на так называемые области Вороного, определяющие различающиеся группы данных. Данные, сгруппированные внутри кластера, представляются центральной точкой, определяющей среднее значение всех его элементов. Центр кластера отождествляется с центром соответствующей радиальной функции.
Разделение данных на кластеры можно выполнить с использованием алгоритма К-усреднений.
Согласно этому алгоритму центры радиальных базисных функций размещаются только в тех областях входного пространства, в которых имеются информативные данные. Если обучающие данные представляют непрерывную функцию, начальные значения центров в первую очередь размещают в точках, соответствующих всем максимальным и минимальным значениям функции.
Пусть - число нейронов скрытого слоя, t - номер итерации алгоритма. Тогда алгоритм К-усреднений можно описать следующим образом [5]:
Инициализация. Случайным образом выбираем начальные значения центров , которые должны быть различны. При этом значения эвклидовой нормы по возможности должны быть небольшими.
Выборка. Выбираем вектор из входного пространства.
Определение центра-победителя. Выбираем центр , ближайший к , для которого выполняется соотношение:
Уточнение. Центр-победитель подвергается уточнению в соответствии с формулой (3.6):
(3.6)
где - коэффициент обучения, имеющий малое значение (обычно <<1), причем уменьшающееся во времени. Остальные центры не изменяются.
Продолжение. Увеличиваем на единицу значение t и возвращаемся к шагу 2, пока положение центров не стабилизируется.
Также применяется разновидность алгоритма, в соответствии с которой значение центра-победителя уточняется в соответствии с формулой (3.6), а один или несколько ближайших к нему центров отодвигаются в противоположном направлении, и этот процесс реализуется согласно выражению
(3.7)
Такая модификация алгоритма позволяет отдалить центры, расположенные близко друг к другу, что обеспечивает лучшее обследование всего пространства данных (1<).
После фиксации местоположения центров проводится подбор значений параметров , соответствующих конкретным базисным функциям. Параметр радиальной функции влияет на форму функции и величину области ее охвата, в которой значение этой функции не равно нулю. Подбор должен проводится таким образом, чтобы области охвата всех радиальных функций накрывали все пространство входных данных, причем любые две зоны могут перекрываться только в незначительной степени. При такой организации подбора значения , реализуемое радиальной сетью отображение функции будет относительно монотонным.
Для расчета может быть применен алгоритм, при котором на значение влияет на расстояние между i-м центром и его R ближайшими соседями. В этом случае значение определяется по формуле (3.8):
. (3.8)
На практике значение R обычно лежит в интервале [3; 5].
Данный алгоритм обеспечивает только локальную оптимизацию, зависящую от начальных условий и параметров процесса обучения.
При неудачно выбранных начальных условиях, некоторые центры могут застрять в области, где количество обучающих данных ничтожно мало, либо они вообще отсутствуют. Следовательно, процесс модификации центров затормозится или остановится.
Для решения данной проблемы могут быть применены два различных подхода:
Задать фиксированные значения для каждого центра. Центр, наиболее близкий к текущему вектору x, модифицируется сильнее, остальные - обратно пропорционально их расстоянию до этого текущего вектора x.
Использовать взвешенную меру расстояния от каждого центра до вектора x. Весовая норма делает «фаворитами» те центры, которые реже всего побеждают.
Оба подхода не гарантируют 100% оптимальность решения.
Подбор коэффициента тоже является проблемой. Если имеет постоянное значение, то оно должно быть мало, чтобы обеспечить сходимость алгоритма, следовательно, увеличивается время обучения.
Адаптивные методы позволяют уменьшать значение по мере роста времени t. Наиболее известным адаптивным методом является алгоритм Даркена-Муди:
, (3.9)
где T - постоянная времени, подбираемая для каждой задачи. При k<T не изменяется, при k>T - уменьшается до нуля.
3.7.2 Гибридный алгоритм обучения радиальных сетей
В гибридном алгоритме процесс обучения разделяется на два этапа [4]:
Подбор линейных параметров сети (веса выходного слоя) при использовании метода псевдоинверсии;
Адаптация нелинейных параметров радиальных функций (центра и ширины этих функций).
Оба этапа тесно переплетаются. При фиксации конкретных значений центров и ширины радиальных функций за один шаг, с помощью метода псевдоинверсии подбираются веса выходного слоя. Если обозначить вектор ожидаемых значений, -вектор весов сети, а G - радиальную матрицу Грина:
то задача нахождения вектора весов сводится к решению системы уравнений, линейных относительной весов:
G(w)=d (3.14)
Вследствие прямоугольности матрицы G можно определить вектор весов w с использованием операции псевдоинверсии матрицы G, то есть
w=G+d (3.15),
где обозначает псевдоинверсию прямоугольной матрицы G.
На практике псевдоинверсия рассчитывается с применением декомпозиции SVD. Если G - действительная матрица размера pxK, то существуют ортогональные матрицы и такие, что , где S - псевдодиагональная матрица размера pxK, K<p, .
Пусть только первые r столбцов матрицы S имеют значимые величины, тогда остальными столбцами можно пренебречь.
Тогда матрицы U и V будут иметь следующий вид и , а матрица S становится полностью диагональной .
...Подобные документы
Сущность, виды, направления использования и основные понятия экспертных систем. Понятие и характеристика основных элементов структуры экспертной системы. Основные виды классификаций экспертных систем: по решаемой задаче и по связи с реальным временем.
доклад [104,5 K], добавлен 09.06.2010Определение экспертных систем, их достоинство и назначение. Классификация экспертных систем и их отличие от традиционных программ. Структура, этапы разработки и области применения. Классификация инструментальных средств и технология разработки систем.
курсовая работа [78,0 K], добавлен 03.06.2009Понятия, классификация и структура экспертных систем. Базы знаний и модели представления знаний. Механизмы логического вывода. Инструментальные средства проектирования и разработки экспертных систем. Предметная область ЭС "Выбор мобильного телефона".
курсовая работа [2,2 M], добавлен 05.11.2014Сущность экспертных систем и их научно-познавательная деятельность. Структура, функции и классификация ЭС. Механизм вывода и система объяснений. Интегрированные информационные системы управления предприятием. Применение экспертных систем в логистике.
курсовая работа [317,3 K], добавлен 13.10.2013Изучение характеристик, классификации, функций и основных элементов экспертных систем. Исследование их структуры и отличительных особенностей от другого программного обеспечения. Описания методов проектирования и области применения экспертных систем.
реферат [38,1 K], добавлен 18.09.2013Механизм автоматического рассуждения. Основные требования к экспертным системам. Наделение системы способностями эксперта. Типовая структура и классификация интерфейсов пользователей экспертных систем. Основные термины в области разработки систем.
презентация [252,6 K], добавлен 14.08.2013Понятие и содержание экспертных систем, принципы взаимосвязи элементов: интерфейса пользователя, собственно пользователя, эксперта, средств объяснения, рабочей памяти и машины логического вывода. Классификация, преимущества, недостатки экспертных систем.
реферат [33,9 K], добавлен 25.02.2013Структура экспертных систем, их классификация и характеристики. Выбор среды разработки программирования. Этапы создания экспертных систем. Алгоритм формирования базы знаний с прямой цепочкой рассуждений. Особенности интерфейса модулей "Expert" и "Klient".
курсовая работа [1,1 M], добавлен 18.08.2009Этапы разработки экспертных систем. Требования к организации-разработчику. Правильный выбор подходящей проблемы, работа с экспертом. Разработка прототипной системы. Развитие прототипа до промышленной экспертной системы. Особенности оценки системы.
презентация [169,1 K], добавлен 14.08.2013Понятие и особенности экспертных систем, способных накапливать, обрабатывать знания из некоторой предметной области, на их основе выводить новые знания и решать на основе этих знаний практические задачи. История и устройство юридических экспертных систем.
реферат [58,4 K], добавлен 17.03.2015Экспертная система - компьютерная программа, способная частично заменить специалиста-эксперта в разрешении проблемной ситуации. Структура, режимы функционирования, классификация экспертных систем, этапы разработки. Базы знаний интеллектуальных систем.
реферат [32,2 K], добавлен 04.10.2009Основные этапы при создании экспертных систем: идентификация, концептуализация, формализация, выполнение, отладка и тестирование, опытная эксплуатация и внедрение. Соответствия между этапами проекта RAD и стадиями технологии быстрого прототипирования.
лекция [38,8 K], добавлен 07.11.2013Назначение и архитектура экспертных систем, их применение в сфере образования. Экспертные системы тестирования, принципы их функционирования. Инструментальные средства создания приложения и разработка программы тестирования. Описание программы, листинг.
дипломная работа [706,4 K], добавлен 07.05.2012Экспертные системы как самостоятельное направление в исследованиях по искусственному интеллекту, история его зарождения и развития, главные цели и оценка важности. Сферы применения экспертных систем и причины их коммерческого успеха, перспективы.
реферат [140,8 K], добавлен 27.03.2010Преимущества и недостатки моделей представления знаний. Модель, основанная на правилах, фреймовая модель. Семантическая сеть. Структура экспертных систем и этапы их разработки. Механизмы логического вывода. Стратегия "вверх-снизу", "от цели к ситуации").
презентация [195,3 K], добавлен 29.10.2013Участники и инструментальные средства создания экспертной системы. Классификация, преимущества, сферы применения экспертных систем. Разработка блок-схемы алгоритма и программы на языке Турбо Паскаль для решения задачи по теме "Двумерные массивы".
курсовая работа [1,0 M], добавлен 18.01.2014Основные составляющие информационной технологии. Классические принципы построения архитектуры ЭВМ. Принцип последовательного выполнения операций. Перспективы применения экспертных систем в землеустроительных системах автоматизированного проектирования.
контрольная работа [13,8 K], добавлен 13.11.2012История развития искусственного интеллекта. Экспертные системы: их типы, назначение и особенности, знания и их представление. Структура идеальной и инструменты построения экспертных систем. Управление системой продукции. Семантические сети и фреймы.
реферат [85,7 K], добавлен 20.12.2011Решение неформализованных задач экспертными системами. Системы искусственного интеллекта, эвристический поиск решения. Особенности работы экспертных систем. Знания о процессе решения задач, используемые интерпретатором. Системы обнаружения неисправности.
презентация [100,1 K], добавлен 12.02.2014Решение прикладных задач с использованием искусственного интеллекта. Преимущества и недостатки экспертных систем по сравнению с использованием специалистов, области их применения. Представление знаний и моделирование отношений семантическими сетями.
реферат [260,9 K], добавлен 25.06.2015