Построение и исследование моделей прогнозирования для анализа финансовых показателей

Понятия рынка ценных бумаг. Организация торговли ценными бумагами, её методы и механизм. Технологические этапы проведения интеллектуального анализа данных. Построение моделей: дерево решений, нейронные сети и кластеризации в Deductor Studio Academic.

Рубрика Финансы, деньги и налоги
Вид дипломная работа
Язык русский
Дата добавления 07.08.2018
Размер файла 1,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Наборы элементов: условие (X) и следствие (Y) являются составными частями всех АП. То есть, каждое ассоциативные правила можно представить так: X>Y. Таким образом, шаблон ассоциативных правил может быть записан в виде «Если X, то Y».

Ассоциативные правила описывают связь между наборами предметов, соответствующими условию и следствию. Эта связь характеризуется двумя показателями -- поддержкой (support) и достоверностью (confidence).

Поддержка ассоциативных правил

Поддержкой называют количество или процент транзакций, содержащих определенный набор данных. [13]

Пусть I= i1, i2, i3, …, in - множество (набор) товаров, называемых элементами. Пусть D - множество транзакций, где каждая из них T- это набор элементов из I,T?I.

Правило X>YX>Y имеет поддержку s (support), если s транзакций из D содержат X?Y,

supp(X>Y) = supp(X?Y) (2.1)

Достоверность правила показывает, какова вероятность того, что из X следуетY. Пусть I= i1, i2, i3, …, in - множество (набор) товаров, называемых элементами. Пусть D - множество транзакций, где каждая транзакция T- это набор элементов из I, T:? I.

Правило X>Y справедливо с достоверностью (confidence) c, если c транзакций из D, содержащих X, также содержат Y,

conf(X>Y)= supp(X?Y)/ supp(X) ) (2.2)

Задачи ассоциативных правил:

- прогнозирование;

- представление знаний.

Преимущества ассоциативных правил:

- выявления шаблонов несмотря на малое количество атрибутов

- прогнозируемые атрибуты можно объединять в комбинации

Недостатки ассоциативных правил:

- алгоритмическая сложность при нахождении часто встречающих наборов элементов, т.к. с ростом числа элементов экспоненциально растет число потенциальных наборов элементов.

- время работы алгоритма зависит от сложности правил;

- скорость работы алгоритма зависит от количества атрибутов в БД;

- процесс расчета поддержки правил занимает много времени.

Области применения ассоциативных правил:

- анализ рыночной корзины (для определения часто встречающихся наборов товаров, которые покупатели покупают одновременно);

- медицинская диагностика (на основе симптомов пациента прогнозируется диагноз);

2.1.4 Деревья решений (Decision trees)

Деревья решений являются одним из наиболее популярных подходов к решению задач ИАД. Деревья решений представляют правила в иерархической последовательной структуре.

Выделяют три класса деревьев решений:

- классификация (отнесение объектов к одному из заранее известных классов)

- регрессия (если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых (входных) переменных)

- описание данных (Деревья решений позволяют хранить информацию о данных в компактной форме)

Задачи, которые решают деревья решений:

- классификация;

- регрессия;

- представление знаний;

- прогнозирование

Области применения деревьев решений:

- банковское дело (оценка кредитоспособности клиентов банка при выдаче кредитов)

- промышленность (контроль за качеством продукции (выявление дефектов), испытания без разрушений (например, проверка качества сварки) и т.д.)

- медицина (диагностика различных заболеваний)

- молекулярная биология (анализ строения аминокислот) [16]

Достоинства деревьев решений:

- быстрый процесс обучения;

- простота интерпретации и наглядность;

- возможность работы как с категориями, так и с количественными значениями;

- генерация правил в областях, где эксперту трудно формализовать свои знания;

- извлечение правил на естественном языке;

- интуитивно понятная классификационная модель;

- высокая точность прогноза, сопоставимая с другими методами;

- построение непараметрических моделей [конференция].

Недостатки деревьев решений:

- нестабильность процесса.

- сложность контроля размера дерева

- неадекватность разделения на классы в сложных случаях.

- критерий прироста информации характеризуется склонностью

- предпочитать атрибуты, имеющие большое число различных значений.

2.1.5 Кластеризация (Clustering)

Кластеризация используется для обнаружения классов схожих объектов в имеющемся наборе данных. Кластеризация - позволяет выделять различные однородные группы данных, когда классификационные группы заранее не известны (они выявляются автоматически в процессе обработки данных). Пример метода решения задачи кластеризации: обучение «без учителя» особого вида нейронных сетей - самоорганизующихся карт Кохонена. [17]

Области применения:

- моделирования рыночной конъюнктуры

- маркетинговые исследования: классификация информации к пригодным для дальнейшей обработки группам

- прогнозирование действия лекарственных препаратов в медицине

- диагностика симптомов

- установление таксономии каменных орудий, похоронных объектов и т.д. в археологии [18]

Задачи кластеризации:

- кластеризация;

- прогнозирование.

Одним из наиболее простых и эффективных алгоритмов кластеризации является алгоритм k-means или в русскоязычном варианте k-средних. Он состоит из четырех шагов.

1. Задается число кластеров k, которое должно быть сформировано из объектов исходной выборки.

2. Случайным образом выбирается k записей исходной выборки, которые будут служить начальными центрами кластеров. Такие начальные точки, из которых потом «вырастает» кластер, часто называют «семенами. Каждая такая запись будет представлять собой своего рода «эмбрион» кластера, состоящий только из одного элемента.

3. Для каждой записи исходной выборки определяется ближайший к ней центр кластера.

4. Производится вычисление центроидов - центров тяжести кластеров. Это делается путем простого определения среднего для значений каждого признака для всех записей в кластере.

Достоинства:

- простота использования;

- быстрота использования;

- понятность и прозрачность алгоритма.

Недостатки:

- алгоритм слишком чувствителен к выбросам, которые могут искажать среднее;

- медленная работа с большим объемом БД;

- необходимо задавать количество кластеров. [19]

Алгоритм k ближайших соседей (k-nearest neighbors algorithm, k-NN).

k - ближайших соседей - это метрический алгоритм классификации, основанный на оценивании сходства объектов. Классифицируемый объект относится к тому классу, которому принадлежат ближайшие к нему объекты обучающей выборки.

Достоинства:

- Простота реализации

- Классификацию, проведенную данным алгоритмом, легко интерпретировать путём предъявления пользователю нескольких ближайших объектов

Недостатки:

- Неэффективный расходу памяти и чрезмерное усложнение решающего правила в следствии необходимости хранения обучающей выборки целиком

- Поиск ближайшего соседа предполагает сравнение классифицируемого объекта со всеми объектами выборки, что требует линейного по длине выборки числа операций. [20]

2.2 Программные средства ИАД

Программные средства ИАД условно можно разделить на два вида: универсальные системы ИАД и специализированные. К первым относятся программные средства, которые поддерживают практически всю процедуру ИАД и автоматизируют большой набор методов анализа данных. Ко второму виду относятся средства, созданные для применения в узкой предметной области или поддерживающие только определенный метод или набор методов анализа.

Универсальные программные средства. На рынке универсальных программных средств ИАД представлены такие зарубежные разработки как: Intelligent Miner (IBM), Interprise Miner (SAS), Clementine (Integral Solutions), MineSet (Silicon Graphics), Knowledge Studio (Angoss Software). Конкуренцию им составляют такие российские разработки как: PolyAnalyst (Мегапьютер Интеллидженс), Deductor (BaseGroup Labs)

Практически все эти продукты имеют удобный графический интерфейс, широкие возможности в визуализации и манипулирования с данными, а также организуют доступ к различным источникам данных. Но при этом стоимость большинства этих систем довольно высока и требует от покупателя серьезных работ по интеграции их в существующую корпоративную информационную систему.

Специализированные программные средства. Среди специализированных программных средств ИАД выделяют различные классы: предметно-ориентированные аналитические системы, статистические пакеты, нейроннoсетевые пакеты, деревья решений, системы рассуждений на основе аналогичных случаев, генетические алгоритмы, алгоритмы ограниченного перебора, системы для визуализации многомерных данных. Как правило, стоимость таких специализированных систем заметно меньше по сравнению с универсальными. Рассмотрим их.

Предметно-ориентированные аналитические системы решают узкий класс специализированных задач. Они не требует от пользователя каких-либо серьезных настроек после установки и практически сразу же готовы к использованию. Эти системы, как правило, реализуют несложные статистические методы, но при этом максимально учитывают специфику своей предметной области. Популярным примером таких систем могут служить программные средства «технического анализа» исследования фондовых рынков или средства анализа финансового состояния предприятия, такие как: Оrange Canvas (Slovenia) и RаpidMiner (Germany).

Статистические пакеты изначально не позиционировались разработчиками как средства для проведения ИАД: это мощные математические системы, предназначенные для статистической обработки данных любой природы. Они включают многочисленные инструменты статистического анализа, имеют развитые графические средства. Однако сейчас почти все серьезные статистические пакеты помимо обычных функций реализуют еще и некоторые методы ИАД. Ограничением широкого распространения этих систем является их немалая цена, а также необходимость пользователям обладать глубокими знаниями в области статистики (иначе они не смогут эффективно проводить анализ данных). Примеры статистических систем: SAS (SAS Institute), SPSS (SPSS), Statgraphics (Statistical Graphics).

Нейроннoсетевые пакеты - это класс разнообразных программных средств, реализующих алгоритм построения нейронных сетей, т.е. иерархических сетевых структур, в узлах которых находятся так называемые нейроны. Как уже отмечалось при описании метода нейронных сетей, для создания такой сети ее необходимо «обучить» на примере большого объема обучающей выборки из исходных данных. При этом сети демонстрируют очень хорошие результаты при прогнозировании и классифицировании, однако невозможно интерпретировать полученные с ее помощью результаты. Связано это с тем, что тренированная нейронная сеть представляет собой «умный черный ящик», работу которого невозможно понять и контролировать. Примеры нейронносетевых пакетов: BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (Hyperlogic).

Программные средства, реализующие методы деревьев решений (decision trees), представляют собой специализированные продукты для решения только задач классификации. Примерами таких систем являются: See5/С5.0 (RuleQuest), SIPINA (University of Lyon), IDIS (Information Discovery), KnowledgeSeeker (Angoss).

Системы рассуждений на основе аналогичных случаев (case based reasoning, CBR) так же, как и предыдущий класс реализуют только один метод, который также называют методом «ближайшего соседа» (nearest neighbour). У этого метода есть свои недостатки, однако в ряде задач он способен выдавать неплохие результаты.

Примеры таких систем: KATE tools (Acknosoft), Pattern Recognition Workbench (Unica). Другими примерами систем, реализующим только одну группу методов анализа, можно назвать системы генетических алгоритмов (программный продукт GeneHunter компании Ward Systems Group) и системы алгоритмов ограниченного перебора (система WizWhy от компании WizSoft).

Отдельный класс специализированных средств ИАД представляют собой системы для визуализации многомерных данных. Несмотря на то, что средствами графического отображения данных оснащены сегодня почти все продукты ИАД, на рынке присутствуют продукты, специализирующиеся только на этой функции - например, DataMiner 3D от разработчика Dimension. Системы визуализации предлагают пользователю дружелюбный пользовательский интерфейс, с помощью которого можно ассоциировать анализируемые показатели с такими параметрами диаграмм как «цвет, форма, ориентация относительно осей, размеры и другие свойства графических элементов изображения».

С помощью таких аналитических программ как: Deductor 5.3 (разработчик - компания Base Group Labs (Россия)), RаpidMiner (разработчик - Технологический университет в Дортмунде (Германия)) и Оrange Canvas (разработчик - Университет Любляны (Словения)) был проведен анализ выбранных методов прогнозирования.

Эти программные продукты построены на основе «модульного» принципа. По сравнению с Deductor, RаpidMiner и Оrange Canvas, модули по количеству функций являются более простыми, но число блоков в RаpidMiner и Оrange Canvas больше.

Deductor аналитическая платформа, которая является основой для создания решений, применимых на практике. Аналитическая платформа Deductor оснащена всеми функциями, которые необходимы для проведения полного аналитического цикла: интеграция данных, визуализация, очистка данных, ИАД, сценарный подход. [21]

Достоинствами программного продукта Deductor являются:

- русскоязычный интерфейс;

- объемную, подробную справочную систему

Недостаток состоит в том, что Deductor - платное ПО. Но несмотря на это разработчики предусмотрели вариант бесплатной «студенческой» версии - DeductorAcademic, которая может применяться только в учебных целях. В «студенческой» версии сохранены все модули-обработчики, исключая некоторые второстепенные функции.

Оrange Canvas - это аналитическая система, использующая методы ИАД для обработки данных, визуализации, консолидации данных в хранилище, прогнозирования, и т.д. Программа состоит из набора компонентов для предварительной обработки входных данных, функций скоринга и фильтрации, оценки моделей и моделирования. Он реализован с использованием языка C++ и Python. Orange находится в открытом доступе под лицензией GPL.

К положительным особенностям Оrange Canvas можно отнести:

- отсутствие платы за пользование;

- наличие модулей, хорошо дополняющих функционал аналитической программы;

- возможность самостоятельного создания модулей на языке Python, что заметно расширяет круг пользователей программы.

К недостаткам программы относятся:

- англоязычный интерфейс;

- использование дополнительного модуля SelectAttributes для импорта для входных и выходных данных.

RаpidMiner (прежнее название YALE) является средой для проведения экспериментов и решения задач машинного обучения и интеллектуального анализа данных. Эксперименты в программе описываются в виде суперпозиций произвольного числа произвольным образом вложенных операторов, и легко строятся средствами визуального графического интерфейса RаpidMiner`а.

RаpidMiner -- открытый программный продукт, который свободно распространяется под лицензией GNU AGPLv3.

RаpidMiner может работать как отдельное приложение, как «интеллектуальный движок», так же его можно встроить в другие приложения, включая коммерческие.

Приложениями программного продукта RаpidMiner`а могут быть как исследовательские (модельные), так и прикладные (реальные) задачи интеллектуального анализа данных, включая анализ текста (text mining), анализ мультимедиа (multimedia mining), анализ потоков данных (data stream mining).

Достоинствами RаpidMiner можно назвать:

- встроенный язык сценариев, позволяющий выполнять массивные серии экспериментов

- эффективную и прозрачную работу с данными обеспечивает концепция многоуровневого представления данных (multi-layered data view)

- графическая подсистема обеспечивает многомерную визуализацию данных и моделей

- поддерживаются механизмы плагинов (plugin) и расширений (extension)

- отчеты можно создавать в программе [22]

Отрицательными особенностями являются:

- платная программа с бесплатной «студенческой» версией

- англоязычный интерфейс

Из выбранных программ, RаpidMiner - наиболее сложный, в понятиии освоения.

Возможности аналитических программ: Deductor, Оrange Canvas и RаpidMiner примерно равны. Deductor эффективно использовать для серьезных проектов, но, из-за возможности самостоятельного создания модулей, лучше применять программу Оrange Canvas

Рассматриваемые программные продукты обладают немалым числом различных визуализаторов. Несмотря на это, в Deductor они реализованы удобнее для восприятия, особенно это касается тех, кто начинает заниматься анализом данных и работать с Deductor. После успешного завершения обработки, программа автоматически выводит перечень имеющихся визуализаторов. Пользователь отмечает те, которые ему нужны, и, после нажатия на соответствующую кнопку, визуализаторы будут выведены на экран, каждый из них расположен на своей «закладке». Правила «если-то»-один из визуализаторов программного продукта Deductor, являются удобным представлением построенного дерева в виде правил. Если включить соответствующий режим, то для каждого из узлов построенного дерева можно посмотреть правила.

3. Построение и исследование моделей прогнозирования для анализа финансовых показателей

Для проведения анализа выбранных методов, нужно было выбрать базу данных. Мы воспользовались БД (Таблица 3.1.), включающую в себя, информацию о пакете акций акционерного общества ВТБ. Данные для анализа были взяты из открытого финансового портала finam.ru.

Финам -- один из крупнейших инвестиционных холдингов России, предоставляет широкий спектр услуг от возможности инвестировать средства на рынке ценных бумаг и доверительного управления активами до комплексного сопровождения сделок по покупке и продаже бизнеса, а также операций с капиталом (IPO, частное размещение акций и т. д.) [23]

Реальные данные хранятся в открытом доступе, что является для нас хорошим вариантом для рассмотрения портала в качестве источника данных. Главными критериями при выборе источника данных, было то, чтобы во- первых, данные были реальными, а во-вторых- бесплатными.

Портал finam.ru оказался для нас прекрасным вариантом.

Данные были выбраны периодичностью в месяц, с 1.03.2017 - 1.04.2017.

Таблица 3.1

БД «Акции ВТБ АО»

п/п

Название атрибута

Значения атрибута

1

Дата

1.03.2017 - 1.04.2017

2

Время

11:00:00 - 19:00:00

3

Цена открытия

0.0635700 - 0.0675000

4

Максимальная цена

0.0637800 - 0.0676600

5

Минимальная цена

0.0635000 - 0.0671100

6

Цена закрытия

0.0635200 - 0.0675000

7

Объем сделок

154610000 - 13969630000

Рассмотрим результаты методов прогнозирования в программных продуктах: Deductor Studio Academic, Оrange Canvas и RаpidMiner.

3.1 Построение моделей: дерево решений, нейронные сети и кластеризации в Deductor Studio Academic

рынок ценный бумага финансовый

1. Дерево решений:

Запускаем программу Deductor Studio Academic, после чего загружаем нашу базу с финансовыми показателями «ВТБ АО». Далее запускаем «Мастер обработки» и в разделе ИАД выбираем метод «Дерево решений».

На следующем этапе «Мастера обработки» для каждого столбца задаем значения:

· тип данных - строковый

· назначение - входное (выходное - для целевого столбца, в нашем случае «Объем данных»)

· вид данных - дискретный

· количество уникальных значений - 197 (подсчет программы)

Разбиение исходного множества данных на подмножества

· способ разбиения исходного множества данных - случайно (по умолчанию

· множество - обучающее

· количество строк (всего) - 1188

Параметры ранней остановки

· минимальное количество примеров в узле, при котором будет создан новый - 2 (по умолчанию)

Параметры отсечения

· отсекать узлы дерева - 20.0 (по умолчанию)

Автоматическое построение. После чего запускаем построение дерева решений и получаем данные о нашем дереве. Получаем информацию о:

· количество узлов - 1038

· количество правил - 992

· время обучения - 4 сек.

После того как процесс обучения деревьев решений окончен, мы выбираем способ отображения данных

В разделе ИАД выбираем:

· Дерево решений

· Правила

· Значимость атрибутов

· Таблица сопряженности

· Что- если

Из табличных данных выбираем:

· Обучающий набор

после чего наше дерево, включая все правила, будут отображены на экране (рис. 3.1 - 3.6 )

Рис. 3.1 - Модель дерева решений в Deductor

Рис.3.2 - Фрагмент дерева решений

Рис. 3.3 - Фрагмент перечня правил

Рис. 3.4 -Значимость атрибутов

Рис. 3.5 - Сценарий эксперимента

Для проверки качества построенной модели (дерева решений), была использована функция Скрипт, которая позволяет использовать существующую модель для обработки нового набора данных. В результате выполненной проверки были выявлено, что модель хорошо обучена для решения типовых задач деревьев решений с использованием данных финансовых показателей.

Скрипты предназначены для автоматизации процесса добавления в сценарий однотипных ветвей обработки. Загружаем новую базу данных «ВТБ_1» и анализируем полученные результаты.

Рис. 3.6 - Фрагмент дерева решений для функции «Скрипт» (результат)

2. Нейронная сеть

Загружаем нашу базу с финансовыми показателями «ВТБ АО». Запускаем «Мастер обработки» и в разделе ИАД выбираем метод «Нейросеть».

На следующем этапе «Мастера обработки» для каждого столбца задаем значения:

· тип данных - строковый

· назначение - входное (выходное - для целевого столбца, в нашем случае «Объем данных»)

· вид данных - дискретный

· количество уникальных значений - 197 (подсчет программы)

Разбиение исходного множества данных на подмножества:

· способ разбиения исходного множества данных - случайно (по умолчанию

· множество - обучающее

· количество строк (всего) - 1188

Структура нейронной сети:

Нейроны в слоях

· входном - 41 (по умолчанию)

· скрытых слоев - 2

· выходном - 8 (по умолчанию)

Активационная функция:

· тип функции - Сигмоида (по умолчанию)

· крутизна - 3000

Обучение нейронной сети:

· максимальная ошибка меньше - 0.05

· эпоха - 10000

· время обучения - 14 мин 15 сек.

После того как процесс обучения нейронной сети окончен, мы выбираем способ отображения данных.

В разделе ИАД выбираем:

· Граф нейросети

· Таблица сопряженности

· Что- если

Из табличных данных выбираем:

· Обучающий набор

Нейросеть построена (рис. 3.7 - 3.9 )

Рис. 3.7 - Сценарий эксперимента

Рис. 3.8 - Граф нейросети

Скрипт представляет собой динамическую копию выбранного участка сценария и является готовой моделью, поэтому входящие в него узлы не могут быть изменены отдельно от исходной ветки сценария. Тем не менее, на скрипте отражаются все модификации, вносимые в ветку, на которую он ссылается, т. е. при переобучении или перенастройке узлов этой ветки все сделанные изменения будут внесены в работу скрипта. Загружаем новую базу данных «ВТБ_1» и проводим анализ полученных результатов.

Применяем скрипт к построенной модели нейросети и получаем результат:

Рис. 3.9 - Граф нейросети для функции «Скрипт» (результат)

3. Кластеризация

Загружаем нашу базу с финансовыми показателями «ВТБ АО». Запускаем «Мастер обработки» и в разделе ИАД выбираем метод «Кластеризация».

На следующем этапе «Мастера обработки» для каждого столбца задаем значения:

Настройка параметров кластеризации:

· Автоматически определить количество кластеров (g-means)

Уровень значимости - 0,1%

Полученное количество кластеров N= 143

В разделе ИАД выбираем:

· Связи кластеров

· Таблица сопряженности

· Что-если

· Матрица сравнения

· Профили кластеров

Из табличных данных выбираем:

· Обучающий набор

Модель кластеризации построена (рис. 3.10, рис. 3.11)

Рис. 3.10 - Модель кластеризации в Deductor

Для определения достоверности прогноза, применяем обработчик - Скрипт.

Таблица 3.2

Результаты работы программного пакета - Deductor

Нейронные сети

Деревья решений

Кластеризация

1

Удаление дубликатов

+

+

+

2

Удаление незначащих факторов

+

+

+

3

Прогнозирование целевого показателя для единичного набора входных значений

+

+

+

4

Прогнозирование целевого показателя для множества входных значений

+

+

-

5

Обработка пропущенных значений

-

+

-

6

Представление прогностической модели в виде набора правил «если-то»

+

+

+

7

Представление прогностической модели в графическом виде

+

+

-

8

Достоверность прогноза

15%

93%

51 %

9

Скорость построения модели, сек.

855

4

7

3.2 Построение моделей: дерево решений, нейронные сети и кластеризации в Оrange Canvas

1. Модель дерева решений в Оrange Canvas (рис. 3.11)

Рис. 3.11 - Сценарий эксперимента в Оrange Canvas

Разбиение дерева решения по критерию: Gain Ratio (рис. 3.12).

Рис. 3.12 - Дерево решений (Gain Ratio) в программе Оrange Canvas

Разбиение дерева решения по критерию: Gini Index (рис. 3.14).

Рис. 3.13 - Дерево решений (Gini Index) в программе Оrange Canvas

Разбиение дерева решения по критерию: Information Gain (рис. 3.14).

Рис. 3.14 - Дерево решений (Information Gain) в программе Оrange Canvas

2. Нейронные сети

Построим модель нейронной сети (рис. 3.15).

Рис. 3.15 - Модель нейронной сети в программе Оrange Canvas

При настройках нейронных сетей прогнозирование проводилось при количестве итераций равной 10000.

3. Кластеризация

Построена модель кластеризации с помощью метода k ближайших соседей (рис. 3.16)

Рис. 3.16 - Модель кластеризации в программе Оrange Canvas

Для построения прогноза метода кластеризации мы использовали разные критерии разбиения: Hamming, Maximal, Euclidean и Manhattan.

Результаты работы в Оrange Canvas приведены в таблице 3.3.

Таблица 3.3

Сравнение прогностических возможностей методов

Нейронные сети

Деревья решений

Кластеризация

1

Удaление дубликaтов

-

-

-

2

Удaление незначaщих фaкторов

-

-

-

3

Прогнозировaние целевого показaтеля для единичного набора входных значений

+

+

+

4

Прогнозирование целевого показателя для множества входных значений

+

+

+

5

Обрaботкa пропущенных значений

-

+

-

6

Предстaвление прогностической модели в виде наaборa прaвил «если-то»

-

-

-

7

Представление прогностической модели в графическом виде

-

+

-

8

Достоверность прогноза

74%

83% (Gain ration)

80% (InformationGain)

78% (GiniIndex)

83% (Hamming)

76% (Euclidean)

74% (Manhattan)

69% (Maximal)

9

Скорость построения модели, сек.

4

3

5

3.3 Построение моделей: дерево решений, нейронные сети и кластеризации в RapidMiner

1. Деревья решений

Построение модели деревьев решений (рис. 3.17)

Рис. 3.17 - Модель деревьев решений в программе RapidMiner

Gini Index, Information Gain, Gain Ratio- критерии, которые использовались для построения прогноза

Разбиение по критерию: Gain Ratio (Рис. - 3.18)

Рис. 3.18 - Разбиение по критерию: Gain Ratio

2. Нейронные сети

Модель нейронной сети в программе RapidMiner (рис. 3.19)

Рис. 3.19 - Модель нейронной сети в программе RapidMiner

3. Кластеризация

Модель кластеризации в программе RapidMiner (рис. 3.20)

Рис. 3.20 - Модель кластеризации в программе RapidMiner

1, 5, 10 - количество соседей в настройках

Таблица 3.4

Результаты работы программы RapidMiner

Нейронные сети

Деревья решений

Кластеризация

1

Удаление дубликатов

-

-

-

2

Удаление незначащих факторов

-

-

-

3

Прогнозирование целевого показателя для единичного набора входных значений

+

+

+

4

Прогнозирование целевого показателя для множества входных значений

+

+

+

5

Обработка пропущенных значений

-

+

-

6

Представление прогностической модели в виде набора правил «если-то»

-

-

-

7

Представление прогностической модели в графическом виде

-

+

-

8

Достоверность прогноза

21%

81% (Information Gain)

78% (Gain Ratio)

85% (Gini Index)

78% (к=1)

69% (к=5)

71% (к=10)

9

Скорость построения модели, сек.

10

1

3

Проведем анализ точности прогнозируемых результатов (таблица 3.5).

Таблица 3.5

Анализ точности прогнозируемых результатов

RapidMiner

Deductor

Оrange Canvas

Деревья решений

81%

93%

80%

Нейронные сети

21%

33%

74%

Кластеризация

72%

51%

77%

Проведя анализ методов можно сделать вывод, что самые достоверные прогнозы формирует метод дерево решений (85%), кластеризация формирует менее достоверный прогноз (67%), а достоверность прогноза нейронных сетей (42%) самая низкая из трех методов.

Мы выявили модель прогнозирования, которая дает наиболее точные прогнозы- это метод «Дерево решений». Провели анализ полученных результатов и выявили, что самой лучше аналитической программой из рассмотренных выше программ, является Оrange Canvas с вероятностью прогнозирования 77%, вероятность анализов в программе Deductor равна 59%, и всего на 1 % отстает аналитическая программа RapidMiner с вероятность равной 58%.

Заключение

В результате выполненной работы были построены и исследованы модели прогнозирования для анализа финансовых показателей.

Для получения результатов были решены следующие задачи:

· Изучена предметная область

· Выявлены особенности предметной области

· Были рассмотрены наиболее часто используемые методы искусственного интеллекта и по определенным критериям, среди них были выбраны методы, подходящие для анализа финансовых показателей, а именно: деревья решений, нейронные сети и кластеризация.

· Были рассмотрено различные аналитические программы и среди них были выбраны программы, реализующие выбранные методы ИИ: Оrange Canvas, Deductor и RapidMiner.

· В каждой программе были построены модели прогнозирования деревьев решений, нейронных сетей, кластеризации, с учетом изменения критериев, исходных данных и подбора параметров проведен анализ финансовых показателей.

· Был проведен сравнительный анализ построенных моделей, особенностей аналитических программ и полученных данных, после чего были сделаны выводы о том, что методом, который в наибольшей степени подходит для решения задач прогнозирования показателей, является метод- «Деревья решений», который делает прогнозы с достоверностью, равной 93%, что является высоким показателем прогноза. А лучшим аналитическим программным продуктом, реализующим эти методы, оказалась программа, разработчиком которой является Университет Любляны (Словения)- аналитическая система Orange Canvas.

Размещено на Allbest.ru

...

Подобные документы

  • Особенности учета и анализа ценных бумаг в рыночной экономике. Основные характеристики и виды ценных бумаг. Налогообложение операций с ценными бумагами. Мероприятия по повышению эффективности использования ценных бумаг на примере коммерческой организации.

    дипломная работа [194,3 K], добавлен 11.05.2014

  • Роль налогового законодательства в развитии рынка ценных бумаг. Валовая прибыль по операциям с ценными бумагами. Доходы, освобождаемые от налогообложения. Первичное размещение акций. Порядок отражения операций с ценными бумагами в налоговой декларации.

    реферат [28,8 K], добавлен 03.07.2012

  • Рынок ценных бумаг. Развитие инфраструктуры и увеличение количества участников рынка. Объемы операций с ценными бумагами. Создание системы регулирующих органов. Современные участники рынка ценных бумаг. Эмитенты и любые инвесторы, работающие на рынке.

    курсовая работа [613,5 K], добавлен 24.08.2011

  • Виды ценных бумаг и их роль в хозяйственной деятельности организации. Отражение приобретения и реализации ценных бумаг в налоговом учете. Формирование налоговых регистров по учету операций с ценными бумагами. Правовое регулирование движения ценных бумаг.

    контрольная работа [63,9 K], добавлен 26.03.2015

  • Функции, сегменты и модели рынка ценных бумаг. Проблемы налогового регулирования привлечения и использования инвестиций в России через фондовые операции. Налогообложение доходов от операций с инструментами рынка ценных бумаг. Роль акцизы и пошлины.

    контрольная работа [70,8 K], добавлен 04.02.2014

  • Содержание рынка ценных бумаг. Стратегия и перспективы его развития. Формирование рынка ценных бумаг Республики Беларусь, особенности и динамика развития. Анализ его состояния. Содержание рынка ценных бумаг. Объем и структура действующего рынка.

    курсовая работа [1,4 M], добавлен 11.04.2015

  • Главная задача рынка ценных бумаг как обеспечение совершения гражданско-правовых сделок с ценными бумагами. Функции рынка: перераспределительная, мобилизационная, инвестиционная, информационная, ценовая, регулятивная. Информационное обеспечение рынка.

    контрольная работа [29,5 K], добавлен 08.09.2015

  • Теоретические аспекты стратегического управления ценными бумагами в России. Структура рынка ценных бумаг. Конъюнктура мировой экономики в кризисный период 2008–2010 гг., влияние на рынок ценных бумаг. Анализ финансового состояния ООО ФА "Милком-Инвест".

    дипломная работа [92,6 K], добавлен 17.06.2013

  • Характеристика ценных бумаг государственного внутреннего займа РФ и его субъектов. Сущность и структура рынка, его доходность и ликвидность. Динамика операций с государственными ценными бумагами. Основные направления повышения эффективности рынка.

    дипломная работа [766,9 K], добавлен 16.04.2010

  • Понятие и сущность ценных бумаг. Виды ценных бумаг и их классификация. Нормативно–правовое обеспечение операции банков с ценными бумагами в Республике Казахстан. Операции банков с облигациями. Перспективы развития казахстанского рынка ценных бумаг.

    курсовая работа [29,8 K], добавлен 18.12.2013

  • Модели активизации биржевой торговли ценными бумагами, оценка ликвидности ценных бумаг по результатам биржевых торгов. Система управления устойчивостью в предкризисных ситуациях. Модель автоматического кредитования ценными бумагами в биржевой торговле.

    лекция [71,4 K], добавлен 05.05.2010

  • Определение и сущность риска на рынке ценных бумаг. Классификация и виды финансовых рисков на рынке ценных бумаг. Операционные риски срочного рынка и алгоритмической торговли. Перспективы и пути совершенствования развития рынка ценных бумаг в России.

    курсовая работа [1,5 M], добавлен 21.12.2013

  • Экономический механизм функционирования рынка государственных и корпоративных ценных бумаг ОАО "Банк Москвы". Понятие рынка ценных бумаг, функции и виды рынка ценных бумаг. Меры по совершенствованию регулирования и развития рынка ценных бумаг в РФ.

    курсовая работа [98,9 K], добавлен 13.06.2012

  • Понятие о рынке ценных бумаг. Место рынка ценных бумаг. Функции ценных бумаг. Составные части рынка ценных бумаг и его участники. Эволюция российского рынка ценных бумаг. Тенденции развития рынка ценных бумаг. Основные проблемы.

    курсовая работа [32,9 K], добавлен 05.06.2006

  • Теоретические основы налогообложения доходов от операций по ценным бумагам. Проблема исчисления доходов и прибыли от операций с ценными бумагами. НДФЛ при покупке ценных бумаг по цене ниже рыночной. Операции с безвозмездно полученными ценными бумагами.

    курсовая работа [48,7 K], добавлен 26.12.2011

  • Понятие и содержание, преимущества и недостатки электронной торговли. Сущность рынка ценных бумаг, его функции, модели и классификационные признаки, проблемы и перспективы. Информационное обеспечение фондового рынка. Тенденции его развития в России.

    курсовая работа [30,7 K], добавлен 10.12.2014

  • Задачи рынка ценных бумаг, рыночная инфраструктура и инструменты ценообразования. Прогнозирование перспективных направлений экономического развития на основе анализа динамики продажной стоимости ценных бумаг. Первичный и вторичный рынок ценных бумаг.

    контрольная работа [20,0 K], добавлен 17.08.2010

  • Понятие и классификация рисков, их характеристика. Инвестиционные риски и методы их учета и анализа. Риск на рынке ценных бумаг. Обзор методов и моделей анализа финансового риска. Качественный анализ рисков на примере производственного предприятия.

    курсовая работа [92,6 K], добавлен 05.01.2011

  • Определение места и роли налогообложения рынка ценных бумаг в налоговой системе Российской Федерации. Анализ действующего порядка и механизмов налогообложения операций с ценными бумагами. Порядок и методика определения налоговой базы для уплаты налога.

    дипломная работа [111,3 K], добавлен 30.07.2017

  • Характеристика понятия, целей и задач системы управления рынком ценных бумаг. Анализ государственного регулирования и саморегулируемых организаций рынка ценных бумаг. Работа рынка ценных бумаг в США. Развитие регулирования рынка ценных бумаг в России.

    курсовая работа [40,6 K], добавлен 05.06.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.