Построение наилучшей гарантирующей стратегии игрока в одной антагонистической игре с не дифференцируемой ценой

Рассмотрена дифференциальная игра "наведения-уклонения" на горизонтальной плоскости в классе позиционных стратегий. Показано, что не для всех позиций ее цена является непрерывно дифференцируемой функцией. Описаны формы оптимального управления игроком.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 26.04.2019
Размер файла 112,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УДК 519.6

Построение наилучшей гарантирующей стратегии игрока в одной антагонистической игре с не дифференцируемой ценой

С.В. Лутманов

Пермский государственный национальный исследовательский университет

Россия, 614990, Пермь, ул. Букирева, 15

mpu@psu.ru.; (342)239-63-09

Рассматривается дифференциальная игра "наведения-уклонения" на гладкой горизонтальной плоскости в классе позиционных стратегий. Показано, что не для всех позиций ее цена является непрерывно дифференцируемой функцией. Для реализации оптимальной стратегии первого игрока в работе строится стабильный мост этого игрока, сечение которого в финальный момент времени совпадает с целевым множеством. Оптимальное управление осуществляется игроком в форме экстремального прицеливания на построенный мост.

Ключевые слова: дифференциальная игра; стабильный мост; цена игры; экстремальное прицеливание.

дифференциальный игра стратегия плоскость

Construction of the player's best guaranteeing strategy in one antagonistic game with non-differentiable value

S. V. Lutmanov

Perm State National Research University, Russia, 614990, Perm, Bukireva st., 15

mpu@psu.ru.; (342)239-63-09

In this paper a differential “directing-evading” game on horizontal plane in the class of positional strategies is discussed. Its value is demonstrated to be a continuously differentiable function not for every position. In the paper, in order to implement an optimal strategy of the first player his stable bridge is constructed so that its section coincides with the target set at final instant of time. Optimal control is carried out by the player in the form of extremal targeting at the constructed bridge.

Key words: differential game; stable bridge; value of game; extremal targeting.

Известно, что функция цены в антагонистических дифференциальных играх является непрерывной, но необязательно непрерывно дифференцируемой функцией. В случае ее дифференцируемости эффективным методом построения оптимальных стратегий игроков служит принцип перехода Р.Айзекса [1], реализация которого сводится к интегрированию дифференциального уравнение Беллмана - Айзекса. В противном случае строить допустимые (гладкие) позиционные стратегии игроков, обеспечивающие седловую точку в игре, не удается.

В книге [2] указанные стратегии реализуются в форме экстремального прицеливания на соответствующие стабильные мосты. В статье на примере конкретной дифференциальной игры с недифференцируемой ценой демонстрируется возможность применения данного подхода для ее решения

Постановка дифференциальной игры

Рассмотрим динамический конфликтно управляемый объект

(1.1)

,

.

Здесь фазовый вектор игры, текущее время, векторы управляющих параметров первого и второго игроков соответственно, функция платы, минимизируемая первым игроком и максимизируемая вторым игроком.

Описанная здесь конфликтная ситуация допускает следующую физическую интерпретацию. Материальная точка единичной массы, управляемая двумя игроками, движется по гладкой горизонтальной плоскости. Каждый игрок в любой момент времени может воздействовать на точку, прикладывая к ней силу, произвольную по направлению и ограниченную по величине. Цель первого игрока - минимизировать в конечный момент времени геометрическое расстояние от управляемой точки до начала координат, а второго игрока - максимизировать это расстояние.

Принцип перехода Р. Айзекса

Предполагая, что цена игры является дифференцируемой функцией позиции, будем искать ее как решение дифференциального уравнение Беллмана - Айзекса [1]

(2.1)

с граничными условиями

. (2.2)

Пусть.

Преобразуем выражение

.

Последовательно вычисляем:

,

,

. (2.3)

Последовательность операций и в (2.1) допускает обратную замену, а управления, на которых указанные и достигаются, имеют вид

,

. (2.4)

Заметим, что равенство

имеет место и в случае, когда .

Функцию , являющуюся решением задачи (2.1), (2.2), будем искать в виде

,

где - постоянные, подлежащие определению.

Построение функции будем производить в области

.

Из граничных условий (2) следует, что . Тогда

,

,

,

,

.

Рис. 1

Подставим найденные частные производные функции в уравнение (2.3). В результате получим

.

Таким образом,

,

. (2.5)

В области управления , вычисленные по формулам (2.4) с учетом (2.5), допустимы и, следовательно, оптимальны. При этом

.

Пример 1. Полагаем , ,, , , , , .

Рассмотрим три случая:

1) оба игрока действуют оптимально (выбирают свои стратегии в соответствии с формулами (2.5));

2) первый игрок действует оптимально, а второй придерживается произвольного допустимого программного управления, например управления

;

3) второй игрок действует оптимально, а первый придерживается произвольного допустимого программного управления, например, управления

.

На рис. 1 показаны траектории движения управляемой точки на плоскости для всех трех случаев. При этом в случае 1) траектория обозначена пунктирной линией, в случае 2) - жирной линией и в случае 3) - обычной линией.

Тот факт, что пара стратегий образует седловую точку в игре, подтверждается двойным неравенством

.

Функция должна оставаться постоянной вдоль траектории движения для первого случая, монотонно убывать для второго случая и монотонно возрастать для третьего случая. Указанные зависимости функции от времени приведены на рис. 2.

Вне области позиционные стратегии игроков (2.4), (2.5) уже не являются допустимыми, а цена игры - функция перестает быть непрерывно дифференцируемой функцией. В случае, когда в процессе игры дифференциальное уравнение (1.1) при подстановке в него позиционных стратегий (2.4), (2.5) игроков не может быть проинтегрировано.

Стабильный мост и экстремальное прицеливание

Покажем, что для начальных позиций первый игрок, применяя экстремальное прицеливание на подходящий стабильный мост, в состоянии привести управляемую точку в начало координат при любых противодействиях второго игрока, т.е. получить наилучшее для себя значение платы.

Полагаем

.

Очевидно, что множество обладает следующими свойствами

1) ;

2) для любых

существует решение дифференциального уравнения в контингенциях

такое, что .

Таким образом, множество представляет собой стабильный мост первого игрока, обрывающийся в финальный момент времени в начале координат.

Определим стратегию первого игрока, осуществляющую экстремальное прицеливание на стабильный мост .

Пусть . Найдем вектор из условия .

Для этого решим задачу математического программирования на условный минимум с ограничением типа неравенства

,

Эта задача эквивалентна следующей задаче:

, (3.1)

. (3.2)

Составим для нее функцию Лагранжа

и выпишем необходимые условия экстремума

,

,

,

Добавляя к полученным уравнениям условие связи (3.2), получим систему из пяти уравнений относительно неизвестных .

Ее решение , полученное средствами пакета Mathematica, весьма громоздко и здесь не приводится.

Можно показать, что набор величин действительно доставляет условный минимум в (3.1), (3.2).

Полагаем

,

.

Заметим, что

.

Окончательно устанавливаем, что (3.3)

Управление точкой первый игрок осуществляет по следующей схеме. Интервал времени разбивается на полуинтервалы .

На каждом из таких полуинтервалов управление первого игрока считается постоянным и равным , а управление второго игрока - произвольной допустимой реализацией вектора его управляющих параметров. Равномерный предел соответствующих ломаных Эйлера будет являться движением рассматриваемой точки, порожденным стратегией (3.3) первого игрока.

В книге [2] показано, что каждое такое движение будет оставаться на множестве вплоть до момента времени . Последнее обстоятельство обеспечивает наилучший результат в игре для первого игрока.

Пример 2. Пусть , , , , , , , . Заметим, что начальная позиция принадлежит множеству . Тогда стратегия (3.3) обеспечивает значение платы в игре, равное нулю, т.е. переводит геометрические координаты точки в начало координат в конечный момент времени.

Движение точки, порожденное управлением (3.3) первого игрока, аппроксимируем ломаными Эйлера, построенными на разбиениях интервала времени на 20, 50 и 80 частей.

Плата на каждой из этих аппроксимаций принимает соответственно значение

. (3.4)

На рис. 3 показана траектория движения точки, построенная на базе ломаной Эйлера для 80 разбиений.

В отличие от предельного движения аппроксимирующая его ломаная Эйлера может в некоторые моменты времени покидать множество . Это обстоятельство объясняет тот факт, что значение платы для ломаных Эйлера не является чистым нулем. Однако, как это видно из (3.4), в пределе величина платы стремится к нулю.

На рис. 4 приведен график изменения функции , вычисленной вдоль ломаной Эйлера, в зависимости от времени. В моменты времени, для которых позиция выходит за пределы множества

Заключение

Таким образом, в игре с недифференцируемой ценой построена наилучшая гарантирующая стратегия первого игрока в форме прицеливания на стабильный мост. При этом указанная стратегия оказалась разрывной по фазовому вектору игры. Применение пакета Mathematica позволило получить ее аналитическое выражение. Проведенные численные эксперименты подтвердили оптимальность построенной стратегии.

Список литературы

1. Айзекс Р. Дифференциальные игры. М.: Мир, 1967. 479 с.

2. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1973. 455 с.

Размещено на Allbest.ru

...

Подобные документы

  • Создание программы "компьютерная игра "баскетбол", с упрощенным изображением баскетбольного щита и игрока, с возможностью изменять положение игрока, направление броска и его силу. Построение алгоритма, описание процедур и функций, таблица идентификаторов.

    дипломная работа [72,7 K], добавлен 29.11.2011

  • Проблема сокращения перебора при анализе сложных позиционных игр, древовидная структура выбора стратегий, в которых дерево игры в силу своего гигантского размера не может быть построено на практике полностью. Короткие нарды как конкретный пример игры.

    дипломная работа [1,6 M], добавлен 27.10.2013

  • Обзор типов сайтов, сравнение популярных CMS, обеспечение работы. Описание их информационного обеспечения, программного и технического обеспечения. Разработка сводного сайта-каталога фирм с функцией просмотра товара и поиска продавца с минимальной ценой.

    дипломная работа [3,6 M], добавлен 12.12.2013

  • Стандартные процедуры и функции программы. Функция подсчёта шаров в одной линии. Воспроизведение анимации. Подсчёт проведённого в игре времени. Начисление очков. Реализация главного окна игры и перемещения шариков. Принципы составления фигур в линию.

    курсовая работа [555,7 K], добавлен 14.09.2013

  • Рассмотрение основ формирования инструмента аналитики, ведения учета и предоставления клиентам доступа к информации о наличии автозапчастей одной из тюменских компаний, занимающихся авторазбором. Описаны выявленных проблемы, а также путей их решения.

    дипломная работа [4,3 M], добавлен 07.07.2015

  • Разработка на основе игры "Точки" подхода к программированию "искусственного интеллекта" в позиционных играх и возможность применения данного подхода для решения задач в области экономики, управления и других областях науки. Модель игровой ситуации.

    дипломная работа [1,5 M], добавлен 21.07.2013

  • Технология решения инженерных и творческих задач. Осознанное и неосознанное в творчестве. Концептуальная модель реализации творческой потребности. Творческая деятельность игрока, разрабатывающего концепции стратегий для компьютерной игры StarCraft.

    курсовая работа [340,5 K], добавлен 03.12.2010

  • Принцип метода случайного поиска. Методы наилучшей пробы и его результаты. Блок-схема алгоритма метода наилучшей пробы. Выбор среды программирования, входные и выходные данные, описание программы и результаты её работы. Использование в работе языка C#.

    курсовая работа [812,8 K], добавлен 14.06.2012

  • Методика разработки алгоритма, по которому компьютер сможет играть в "Морской бой" с максимальным качеством, и при этом не подглядывая расположение флота игрока. Математические и алгоритмические основы решения задачи, составление программы решения.

    курсовая работа [365,4 K], добавлен 20.01.2010

  • Разработка модели движения практически невесомой заряженной частицы в электрическом поле, созданном системой нескольких фиксированных в пространстве заряженных тел. При условии, что тела находятся в одной плоскости, но частица находится вне плоскости.

    контрольная работа [60,7 K], добавлен 31.05.2010

  • Особенности и преимущества 3D-моделирования. Базовые функции нелинейного редактирования и комбинирования видео. Проектирование 3D-модели для игрового проекта по созданию дома и моста. Просмотр взаимодействий с игроком объектов в Unreal Engine 4.7.

    дипломная работа [3,6 M], добавлен 14.06.2015

  • Определение оптимального плана выпуска продукции частного предприятия по изготовлению мебели с применением метода линейного программирования (симплекс-метод). Построение схемы движения информации в подсистеме оптимального плана выпуска продукции.

    лабораторная работа [301,5 K], добавлен 08.06.2009

  • Игра арканный симулятор гонок разработана: в среде Delphi 5 с использованием библиотеки OpenGL 1.3.4582, Pixia 2.4g для создания и редактирования текстур, Image Editor 3.0 для создания иконок, 3D-Stydio Max 5.0 для создания моделей машин (игрока).

    курсовая работа [34,1 K], добавлен 23.12.2007

  • Разработка адресных и технических требований к игре. Написание сценария. Общая концепция разработки приложения. Разработка схем алгоритмов приложения. Игровые технологии. Выбор среды и программированного языка. Описание пользовательского интерфейса.

    курсовая работа [1,6 M], добавлен 14.06.2014

  • Синтез цифровой системы управления с передаточной функцией. Структурная схема объекта регулирования с экстраполятором нулевого порядка. Преобразование дискретной передаточной функции относительно псевдочастоты. Оценка устойчивости синтезированной системы.

    курсовая работа [499,9 K], добавлен 06.08.2013

  • Общие сведения об игре "Балда", обзор ее аналогов и основные требования, предъявляемые к данному программному продукту. Состав и параметры технических средств, оценка параметров совместимости. Основные классы приложения и их общая характеристика.

    курсовая работа [381,2 K], добавлен 10.05.2015

  • Исследование основ математической теории игр. Изучение особенностей бесконечных, антагонистических, позиционных и кооперативных игр. Обоснование программных средств реализации логической игры. Описание интерфейса программы и результатов тестирования.

    курсовая работа [341,5 K], добавлен 06.01.2015

  • Решение задачи минимизации среднеквадратичной интенсивности управления. Использование формулы Коши и приращения критерия качества. Применение программы конечного двойственного метода линейно квадратичного программирования. Выбор метода корректировки.

    курсовая работа [262,0 K], добавлен 23.02.2016

  • Выявление связей входных-выходных переменных. Алгоритм работы системы в режимах нормальной эксплуатации и ручного управления. Построение регрессионной модели и на ее основе определение оптимального режима работы химического реактора. Выбор регулятора.

    курсовая работа [9,9 M], добавлен 18.01.2015

  • Исследование основных требований к пользовательскому интерфейсу. Краткая характеристика используемой операционной системы Windows 7 и языка программирования. Особенность создания удобного управления в игре. Главные требования к аппаратному обеспечению.

    курсовая работа [453,0 K], добавлен 02.06.2017

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.