Моделирование оценки финансовых транзакций на предмет мошенничества

Построение наилучшей предсказательной модели для определения мошеннической транзакции. Первичный анализ закономерностей в наборе данных. Обзор программных продуктов для моделирования. Построение и сравнение эконометрических моделей нейронной сети.

Рубрика Экономико-математическое моделирование
Вид дипломная работа
Язык русский
Дата добавления 01.12.2019
Размер файла 3,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Стандартное отклонение показывает, насколько значения переменной отклоняются от средних. Смещение независимой переменной в свою очередь показывает смещенные в наборе данных. Асимметрия показывает, насколько часто в выборке встречаются значения близкие к среднему. На основании корреляционной матрицы можно сделать вывод о том, что в данных присутствует положительная асимметрия. Это значит, что в выборке чаще встречаются данные меньше среднего.

Собранные данные позволят в дальнейшем на более качественном уровне оценивать модели, по причине наличия общего представления о взаимосвязях данных.

Обзор программных продуктов для моделирования

Для выполнения построения моделей необходимо подобрать программные продукты, с помощью которых будет возможность реализовать необходимые эконометрические вычисления, построить нейронную сеть, воспользоваться алгоритмом случайного леса и построить соответствующие модели.

В данном параграфе будут в сравнении рассмотрены наиболее распространённые продукты для проведения эконометрического анализа, также будут рассмотрены программные средства для использования методов машинного обучения.

Среди приложений для построения эконометрических моделей были выделены наиболее популярные варианты:

Приложение “SPSS Statistics”.

Табличный процессов “Microsoft Excel”.

Программное обеспечение “Gretl”.

Библиотеки для статистического анализа на базе языка Python.

Программное приложение “Stata”.

Программный продукт “STATISTICA”.

Программный продукт “Eviews”.

Сравнение было выполнено по наиболее важным аспектам работы с программными продуктами:

Наличие возможности бесплатного использования продукта.

Наличие необходимых тестов для исследования панельных данных.

Объем реализованных в программной среде средств для моделирования и эконометрического анализа.

Удобство пользования интерфейсом.

Удобство и сложность выполнения эконометрического анализа и построения моделей.

Существование исчерпывающей литературы/видео обучающих материалов;

Наличие инструментов для настройки программного приложения под индивидуальные нужды.

На основании сформированных критериев был проведен сравнительный анализ (см. приложение А). В рамках него по каждому критерию давалась оценка по пяти бальной шкале, и в итоге подсчитывалась сумма баллов для определения наиболее подходящего инструмента для анализа. Наивысший балл (5) выставлялся при полном соответствии программного средства указанному критерию, наименьший балл (1) выставлялся при полном несоответствии по указанному критерию, средний балл (2,3,4) выставлялся при частичном несоответствии критерию.

В итоге после проведения анализа по выделенным критериям по совокупным баллам (табл. 3.3) был выбран программный продукт “Stata”.

Таблица 3.3. Общее количество баллов

Программный продукт

Суммарное количество баллов

SPSS Statistics

23

Microsoft Excel

20

Gretl

32

Stata

33

STATISTICA

21

Eviews

26

Для не эконометрических моделей (нейронные сети и ансамбли решающих деревьев) необходимо также подобрать программное средство. В данном случае можно использовать такие языки программирования, как Python или R (табл. 3.4).

Таблица 3.4. Сравнительный анализ R и Python

Преимущества

Недостатки

Язык R

Язык специально создавался и ориентирован на анализ данных.

Множество встроенных функций для анализа данных.

Упрощенная установка интегрированной среды разработки

Низкая производительность, высокая специфичность и отличие от классических языков программирования.

Язык Python

Многоцелевой, универсальный язык программирования, множество постоянно поддерживаемых и разрабатываемых библиотек для анализа данных.

Язык с динамической типизацией, что усложняет процесс отслеживания ошибок.

В итоге язык Python выглядит лучшим вариантом для проведения анализа данных. Гибкость данного языка программирования позволяет существенно сократить время на разработку компонент для моделирования.

Выводы по третьей главе

По итогам первичного анализа данных был описан набор данных и были выявлены основные закономерности. Было выявлено наличие мультиколлинеарности, определен характер получаемого результата (бинарный) и отброшены незначимые факторы. Также был проведен обзор программных продуктов, которые будут использованы в следующей главе для построения моделей: программный продукт Stata и язык программирования Python. На данном этапе выполнение подготовительных работ закончено, в дальнейшем будет описываться непосредственный процесс использования выбранного программного обеспечения для построения моделей в рамках рассмотренных эконометрических методов и способов машинного обучения для оценки финансовых транзакций на предмет мошенничества.

Построение моделей для прогнозирования оценки финансовых транзакций на предмет мошенничества

Первоначальная выборка содержит 1 048 575 наблюдений, перед началом построения моделей её необходимо разбить на обучающую и тестовую. Таким образом построение моделей будет производиться только на обучающей выборке, а валидация - на тестовой. Выборка будет разбита на 80% обучающей выборки и 20% тестовой.

Построение и сравнение эконометрических моделей

Построение эконометрических моделей выполняется в программном продукте “Stata”. В первую очередь выполнено построение объединенной модели регрессии, чтобы проверить качественно самую простую модель (см. рис. 4.1).

Рисунок 4.1. Модель объединенной регрессии

Качество модели низкое, но зато есть значимые переменные: тип и наименование отправителя. Далее выполним построение модели с фиксированными эффектами (см. рис 4.2), чтобы можно было выполнить сравнение с моделью объединенной регрессии. Данная модель является непосредственно применимой под панельные данные.

Рисунок 4.1. Модель с фиксированными эффектами

После построения модели с фиксированными эффектами можно применить тест Вальда для проверки на равенство нулю всех индивидуальных эффектов (см. рис 4.3).

Рисунок 4.2. Тест Вальда

Тестовая статистика меньше P-значения, поэтому лучшим вариантом для имеющейся выборки будет модель с ограничениями - модель с фиксированными эффектами.

Далее следует выполнить построение модели со случайным эффектом (см. рис. 4.4).

Рисунок 4.3. Модель со случайным эффектом

Тест Бройша-Пагана показывает, какая из моделей (объединенной регрессии или модели с случайными эффектами) наилучшим образом описывает выборку (см. рис. 4.5). Множитель Лагранжа имеет высокие значения, поэтому можно сделать вывод о том, что модель со случайным эффектом хуже объединенной модели регрессии.

Рисунок 4.4. Тест Бройша-Пагана

На основании сделанных выводом можно заключить, что наилучшим образом для описания данных подходит модель с фиксированными эффектами. Для того чтобы окончательно в этом убедиться следует провести тест Хаусмана (см. рис. 4.6). Согласно оценке статистики теста Хаусмана предпочтение также отдается модели с фиксированными эффектами. Таким образом было выявлено, что среди специальных моделей для панельных данных наилучшим выбором для описания данных финансовых транзакций будет модель с фиксированными эффектами.

Рисунок 4.5. Тест Хаусмана

Помимо стандартных эконометрических моделей можно применить специальные методы анализа данных в рамках бинарной классификации. Использование моделей логит-регрессии (см. рис. 4.7) и пробит-регрессии (см. рис. 4.8) позволило получить результат и с помощью инструментальных средств выполнить его оценку с помощью ROC-кривой.

Рис. 4.6. Построение логит-регрессии с фиксированными эффектами

В итоге в рамках эконометрического анализа была построена модель бинарной логит-регрессии с фиксированными эффектами, по причине того, что необходимо получить двоичный результат с учетом панельной структуры данных.

Далее было произведено построение матрицы ошибок и отображены основные метрики полученной модели (табл. 4.1).

Таблица 4.1. Оценка параметров моделей классификации

Тип модели

Доля верных ответов

Точность модели

Полнота

F-мера

Логит-регрессия

0,999609

0,999635

0,999973

0,999804

Наилучшим способов отображения результатов модели будет представление результатов в виде ROC-кривой (см. рис. 4.8).

Рисунок 4.8. ROC кривая

Таким образом модели бинарной классификации позволяют однозначно интерпретировать данных. В заключении подведем итог через сравнение главных статистическим параметров (табл. 4.2).

Таблица 4.2. Сводная таблица критериев моделей

Тип модели

Стандартная ошибка модели

Критерий Шварца

Критерий Акаике

Объединенная модель регрессии

0,10

-1945878

-1945925

Модель с фиксированными эффектами

0,10

-4965607

-4965631

Модель со случайными эффектами

0,11

-4618286

-4618398

Логит-регрессия с фиксированными эффектами

0,02

1063.509

1035.587

Анализ таблицы показывает, что логит-регрессия выигрывает за счёт небольшой стандартной ошибки модели несмотря на то, что информационный критерий и критерий Акаике у остальных моделей ниже.

Построение нейронной сети

Построение нейросетевой модели выполняется с помощью языка программирования Python. Программирование выполняется в бесплатной для пользования онлайн среде: Google Colaboratory.

В первую очередь выполняется импорт данных из имеющегося текстового формата. Затем проведение первоначальной обработки. Выборка является несбалансированной, поэтому необходимо будет также указать веса для результатов, чтобы на основании их штрафовать модель при получении тех или иных результатов. Для выполнения обработки данных и построения нейросетей будут использованы следующие библиотеки языка Python: pandas, sklearn, keras.

При подборе весов для зависимой переменной isFraud использовалась стандартная функция из библиотеки sklearn «compute_class_weight». Значения весов получились следующими: 0.501 для правомерной транзакции и 459.180 для несанкционированной. Это означает, что на рассчитываемую в ходе построения нейронной сети функцию потерь будет накладываться соответствующий штраф при неверном предсказании - расчет будет корректироваться. Практические эксперименты с количеством нейронов показали, что нейросеть будет условно оптимальной при наличии входного слоя с 7 нейронами, 2 скрытых слоев с 9 и 5 нейронами соответственно. Для входных и скрытых нейронов была выбрана функция активации relu (см. рис. 4.9). На выходе должен быть 1 слой с сигмоидной функцией активации для того, чтобы получить результат в диапазоне от 0 до 1. В качестве функции потерь была выбрана функция бинарная кросс-энтропия. Для метрик оценки были выбраны критерии чувствительности и точности, которые позволят получить адекватную предсказательную модель в условиях несбалансированности выборки.

Рисунок 4.9. Обучение нейросети

Для выполнения визуализации результата и отображения матрицы ошибок использовались библиотеки seaborn и matplotlib (см. рис. 4.10).

Рис. 4.10. Матрица ошибок

На основании полученной матрицы ошибок можно получить основные метрики: долю правильных ответов, точность, полноту и F-меру (см. табл. 4.3)

Таблица 4.3. Оценка метрик нейросети

Тип модели

Доля верных ответов

Точность модели

Полнота

F-мера

Нейронная сеть

0.00100

0.82864

0.15789

0.84634

Анализ таблицы показывает, что нейронная сеть позволяет добиться неплохого уровня точности. По причине несбалансированности выборки результаты моделирования всегда будут с высокой точностью. Важнее то, сколько было ошибок в предсказании.

Построение ансамбля решающих деревьев

Построение модели с применением ансамбля решающих деревьев выполняется с помощью языка программирования python при помощи библиотеки: sklearn. Визуализация выполняется с помощью библиотек matplotlib и seaborn. Обучение модели производится в бесплатной онлайн среде Google Colaboratory.

В первую очередь производится определение весов для зависимых переменных с помощью функции «compute_class_weight». Значения весов получились следующими: 0.5005450426059449 для правомерной транзакции и 459.17973856209153.

Далее необходимо запустить обучение ансамбля решающих деревьев, так как в алгоритме рассчитывается несколько деревьев решений, а конечный ответ усредняется, модель не может переобучиться, поэтому есть смысл обучать модель на большом множестве решающих деревьев. В рамках анализа было выбрано 500 решающих деревьев для анализа, выбран критерий Джини для максимизации в рамках обучения и включение параметра бутстрапа для выборки.

После обучения модели результат следует проверить на тестовой выборке. Выделены также показателю: доля правильных ответов, точность, полнота и F-мера (табл. 4.4).

Таблица 4.4. Оценка метрик ансамбля решающих деревьев

Тип модели

Доля верных ответов

Точность модели

Полнота

F-мера

Ансамбль решающих деревьев

0.99975

0.99996

0.99978

0.99987

Указанные данные были получены на основании матрицы ошибок (табл. 4.5).

Таблица 4.5. Матрица ошибок для ансамбля решающих деревьев

Фактическое значение (0)

Фактическое значение (1)

Предсказанное значение (0)

209484

7

Предсказанное значение (1)

46

178

Анализ таблицы показывает, что модель показывает результаты лучше, чем у предыдущих моделей, подобный вывод можно сделать на основании матрицы ошибок.

Сравнительный анализ построенных моделей

Анализ различных моделей показал, что для определения мошеннических финансовых транзакций лучше всего из рассмотренных подходит модель, основанная на ансамбле решающих деревьев. Данный вывод сделан на основании единых метрик, которые были выведены для каждой модели: доля верных ответов, точность, полнота. Также оценивалось гармоническое средние по указанным метрикам (F-мера).

Анализ эконометрических моделей показал, что среди специальных моделей для панельных данных лучшей является модель с фиксированными эффектами. Данный вывод был сделан на основании проведенных тестах Вальда, Бройша-Пагана и Хаусмана. Впоследствии для модели с фиксированными эффектами было проведено сравнение с логистической регрессией, на основании построения метрик для матрицы ошибок.

Итоговая модель нейронной сети была выбрана экспериментальным путем через подбор количества слоев и нейронов. В ней также были заданы изначально веса, необходимость в этом обусловлена несбалансированным характером выборки. Финальная нейросетевая модель была протестирована на тестовой выборке. Результаты тесты были оформлены в виде матрицы ошибок, по которой в дальнейшем были построены метрики. Эксперимент показал, что нейросеть в данном случае справляется с предсказанием результата даже хуже, чем логит-регрессия.

Модель, основанная на ансамбле деревьев решений также была построена при учете несбалансированности выборки и разделении выборки на обучающую и тестовую. Построение матрицы ошибок на тестовой выборке показало, что данная модель является лучшей среди проанализированных. Таким образом ансамблевая модель наилучшим образом позволяет предсказать, является ли финансовая транзакция мошеннической или нет в условиях наличия указанной информации о совершенной транзакции.

В итоге наилучшая эконометрическая модель и каждая полученная модель, с использованием методов машинного обучения была испытана на единой тестовой выборке, которая составляла 20% от первоначальной. По результатам были построены матрицы ошибок и посчитаны метрики (см. табл. 4.6).

По результатам анализа были получены выводы о том, что модель, основанная на применении алгоритма случайного леса на ансамбле решающих деревьев наилучшим образом, описывает данные о финансовых транзакциях и позволяет выполнить предсказание о наличии мошенничеств в операции.

Таблица 4.6. Сравнительный анализ полученных моделей

Тип модели

Доля верных ответов

Точность модели

Полнота

F-мера

Логит-регрессия

0,999609

0,999635

0,999973

0,999804

Нейронная сеть

0.00100

0.82864

0.15789

0.84634

Ансамбль решающих деревьев

0.99975

0.99996

0.99978

0.99987

В принципе модели, основанные на применении методов машинного обучения использовать удобнее за счет расширенных возможностей к их внедрению в единую инфраструктуру информационных систем.

Выводы по четвертой главе

По итогам построения первичного анализа данных были построены различные эконометрические модели: модель объединенной регрессии, модель с фиксированными эффектами, модель со случайными эффектами и модель логистической регрессии. Был выполнен сравнительный эконометрических моделей и выбрана лучшая: логит-регрессия. В дальнейшем был проведен анализ и выявление наилучшего способа предсказать данные на основании размеченной выборки среди методов машинного обучения. Были построены модели нейросети и ансамбля решающих деревьев и проведено их сравнение с наилучшей эконометрической. В итоге лучше всего описывает данные о финансовых транзакциях модель, основанная на применении алгоритма случайного леса к ансамблю решающих деревьев.

В итоге было выявлено, что модель, основанная на ансамбле решающих деревьев наилучшим образом, предсказывает данных о финансовых транзакциях на предмет мошенничества.

Также после проведенной работы стоит отметить, что язык программирования Python оказался достаточно удобным для анализа данных, за счет наличия обширного числа готовых библиотек для обработки данных и построения предсказательных моделей.

Заключение

В заключение хотелось отметить, что в рамках выполнения выпускной квалификационной работы была достигнута указанная цель - построение наилучшей модели для предсказания мошеннических финансовых транзакций, через последовательное выполнение сформированных задач. Полученные результаты являются отражением того, как работает система фрод-мониторинга с позиции анализа данных.

В рамках проведенного исследования были достигнуты следующие результаты:

Проанализированы и систематизированы существующие методы построения моделей для оценки финансовых транзакций.

Проанализированы и выделены ключевые факторы, с помощью которых можно оценить финансовые транзакции на предмет мошенничества.

Построены эконометрические модели для оценки финансовых транзакций на предмет мошенничества, осуществлен статистический анализ построенных моделей, проведена верификацию и сравнение результатов.

Построена нейронная сеть и модель, основанная на применении ансамбля решающих деревьев, для выявления несанкционированных транзакций.

Проведено сравнение полученных моделей, выбрана наилучшая и сформированы выводы.

Безусловно в настоящее время есть возможности не ограничиваться статистическим анализом для обработки информации и генерации новых знаний через создание предсказательных моделей. В частности, чаще задачи мониторинга несанкционированных транзакций решаются с помощью методов машинного обучения, например использование нейронных сетей, решающих деревьев и т. д. К тому же существует возможность применять ансамбли моделей, для того чтобы минимизировать негативные стороны каждого отдельного подхода.

В рамках исследования в первую очередь был изучен научный опыт в сфере прогнозирования мошеннических финансовых транзакций и составлен список моделей и подходов, которые могут быть использованы для решения необходимой задачи. На основании собранной информации было проведено детальное описание эконометрических моделей и методом машинного обучения с целью в дальнейшем использовать данные знания на практике. Также перед непосредственным построением моделей был проведен первичный анализ имеющейся выборки и проанализирован рынок программных продуктов для проведения эконометрического анализа и построения моделей с помощью методов машинного обучения.

Проведенное исследование показало, что модель с использованием ансамбля решающих деревьев наилучшим образом справляется с задачей предсказания мошеннических финансовых транзакций.

Проведенное исследование имеет хороший потенциал, а именно по причине использование новейших знаний в области анализа данных в контексте систем мониторинга. Данные, взятые в выборке для эконометрического анализа, уже занимают достаточно большой объем и не всегда традиционными эконометрическими средствами в ходе эксперимента удавалось обработать данные. Это можно объяснить тем, что на текущий момент в мире ежесекундно совершается множество денежных транзакций, и данные, которые генерируются в рамках этого процесса нужно почти мгновенно обрабатывать, на что привычные инструменты не способны. Именно поэтому необходимо использовать технологии для обработки больших данных (Big data) и использовать машинное обучение для их исследования.

Помимо указанных задач, в рамках выполнения работы был проведен анализ программного обеспечения для проведения моделирования и выбраны на текущий момент одни из наиболее популярных библиотек Python для машинного обучения: Sklearn и Keras.

В дальнейшем полученные результаты могут быть взяты за основу для дальнейших исследований в том числе и на новых наборах данных. Например, для применения иных ансамблевых или нейросетевых методов машинного обучения. В рамках данной выпускной квалификационной работы было рассмотрено только по 1 методу из указанных классов. Незатронутыми оказались следующие ансамблевые методы: Бустинг (AdaBoost, CatBoost, LightGBM, XGBoost), Стэкинг. Среди нейронных сетей есть пространство для исследования рекуррентных нейронных сетей (LSM, LSTM, GRU), генеративных нейронных сетей (GAN), сверточные нейронные сети.

Библиографический список

Франгуриди. Г. Динамика условных моментов высоких порядков и прогнозирование стоимостной меры риска // Квантиль. - 2014 - №12, 69-82.

Носко В. П. Эконометрика для начинающих. (Дополнительные главы) // М.: ИЭПП, 2005. С. 379.

Lenz. H.-J. Data Fraud Detection: A First General Perspective // Enterprise Information System 16th International Conf. - 2015, 14-35.

Lopez-Rojas E.A., Elmir A., Axelsson S. Paysim: A Financial Mobile Money Simulator For Fraud Detection // 28th European Modeling and Simulation Symposium. - 2016, 249-256.

Ruder S. An overview of gradient descent optimization algorithms // Insight Centre for Data Alanytics. - 2017.

Bekirova A. S., Klimova V. V., Kuzin M. V., Shchukin B. A. Payment Card Fraud Detection Using Neural Network Committee and Clustering // Optical Memory and Neural Networks (Information Optics). - 2015. - №24, 193-200.

Whitrow C., Hand D. J., Juszczak P. Transaction aggregation as a strategy for credit card fraud detection // Data Mining Knowledge Discovery. - 2009. - №18, 30-55.

Global Economic Crime and Fraud Survey 2018. // URL: PwC.com. (дата обращения 28.03.2019).

Отчет центра мониторинга и реагирования на компьютерные атаки в кредитнофинансовой сфере департамента информационной безопасности банка России 1.09.2017 - 31.08.2018 //

URL: https://www.cbr.ru/Content/Document/File/50959/survey_0917_0818.pdf (дата обращения: 11.02.2019).

Palshikar G. The Hidden Truth - Frauds and Their Control: A Critical Application for Business Intelligence // Intelligent Enterprise. - 2002, 46-51.

Bгnгrescu A. Detecting and Preventing Fraud with Data Analytics // Procedia Economics and Finance. - 2015 - №32, 1827-1836.

Белянина Н.В., Кожин Е.В. Информационная система определения мошенничества по платежным картам в режиме реального времени // Сервис в России и за рубежом. - 2009 - №2, 12.

Муханов Л. Е. Модели выявления и предотвращения несанкционированных транзакций в области банковских карт в системе мягкого реального времени: автореф. дис. канд. тех. наук: 05.13.01. М., 2009.

Разработка математической модели определения несанкционированных переводов денежных средств в системах дистанционного банковского обслуживания // Цифровой репозиторий Казанского федерального университета URL: https://dspace.kpfu.ru/xmlui/bitstream/handle/net/128564/Lyubyakina_Karyakin_Logachev_Ignatyeva_236_2017.pdf (дата обращения: 22.03.2019).

Магнус Я.Р., Катышев П. К., Пересецкий А.А. Эконометрика. Начальный курс. 5-e изд., испр. М.: Дело, 2004.

Amemiya T. The Estimation of the Variances in a Variance-Components Model // International Economic Review. 1971. Vol. 12.

Baltagi B. Economertic Analysis of Panel Data // John Wiley & Sons, 1995.

Мак-Каллок У. С., Питтс В. Логическое исчисление идей, относящихся к нервной активности. - 1956. -- С. 363--384.

Breiman L. Random Forests // University of California. - 2001.

Deaton A. Panel Data from Series of Cross-Sections // Journal of Econometrics. 1985. Vol. 30.

Fuller W.A., Battese G.E. Estimation of Linear Models with Cross-Error Structure // Journal of Econometrics. 1974. Vol. 2.

Hausman J.A., Wise D. Attrition Bias in Experimental and Panel Data: the Gary Income Maintenance Experiment // Journal of Econometrics. 1979. Vol. 47.

Diggle P. Analysis of Longitudinal Data // Oxford: Oxford Statistical Science Series, 2013. Vol. 2.

Ратникова Т.А. Введение в эконометрический анализ панельных данных // Экономический журнал ВШЭ. - 2006 -№4, 638-669.

Quinlan, J. R. Induction of Decision Trees // Kluwer Academic Publishers. - 1986, 81-106.

Ясницкий Л.Н. Интеллектуальные системы // Лаборатория знаний. - 2016, 221.

Kaminski, A., Kaminski, T., Wetzel, S. Can Financial Ratios Detect Fraudulent Financial Reporting? // Managerial Auditing Journal. - 2004 - 19(1), 15-28.

Fanning, K., Cogger, K. Neural Network Detection of Management Fraud Using Published Financial Data // International Journal of Intelligent Systems in Accounting, Finance and Management. - 1998 - 7(1), 21-24.

Kirkos, S., Spathis, C., Manolopoulos, Y. Data Mining Techniques for the Detection of Fraudulent Financial Statements // Expert Systems with Application. - 2007 - 32(4).

Hsiang Chen F., Der-Jang Chi, Jia-Yi Zhu Application of Random Forest, Rough Set Theory, Decision Tree and Neural Network to Detect Financial Statement Fraud - Taking Corporate Governance into Consideration // Springer. - 2014, 221-234.

Kirkos S., Spathis, C., Manolopoulos, Y.: Data Mining Techniques for the Detection of Fraudulent Financial Statements // Expert Systems with Application. - 2007 - 32(4).x

Gуmez, J. A., Arйvalo, J., Paredes, R., & Nin, J. End-to-end neural network architecture for fraud scoring in card payments // Pattern Recognition Letters. - 2018 - 105, 175-181.

Bhattacharyya, S., Jha, S., Tharakunnel, K. Data mining for credit card fraud: A comparative study // Decision Support Systems. - 2011 - 50(3), 602-613.

Kumar A., Gupta G. Fraud Detection in Online Transactions Using Supervised Learning Techniques. - 2018, 11-23.

Box G., Gwilym J. Time series analysis: forecasting and control, rev. ed. // Oakland, California: Holden-Day. -- 1976.

Nello C., Shawe-Taylor J. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods // Cambridge University Press. - 2000. -- ISBN 978-1-139-64363-4.

Pedro D., Michael P. On the optimality of the simple Bayesian classifier under zero-one loss // Machine Learning. - 2016 - 29:103-137.

Приложение А

Сравнение эконометрических программных продуктов

Критерий сравнения

Программное средство

Оценка

Комментарий

Наличие возможности бесплатного использования продукта

SPSS Statistics

2

Присутствует платная версия, есть пробный период на 14 дней и бесплатная версия для студентов

Microsoft Excel

3

Дорогостоящий продукт, однако имеются студенческие лицензии

Gretl

5

Полностью бесплатное программное обеспечение

Stata

4

Платная версия

STATISTICA

1

Дорогостоящая лицензия, несколько вариантов предоставление продукта: базовая и продвинутая версии

Eviews

1

Высокая стоимость, нет пробного периода

Наличие необходимых тестов для исследования панельных данных

SPSS Statistics

1

Отсутствует функционал для обработки панельных данных

Microsoft Excel

1

Отсутствие необходимых тестов, необходимо вручную настраивать систему и вводить формулы для анализа

Gretl

5

Присутствует полный спектр инструментов для анализа панельных данных

Stata

5

Имеются модули для взаимодействия с панельными данными

STATISTICA

1

Нет функциональности для анализа панельных данных

Eviews

4

Присутствуют базовые инструменты для обработки панельных данных

Объем реализованных в программной среде средств для моделирования и эконометрического анализа

SPSS Statistics

5

Большой спектр реализованного функционала

Microsoft Excel

1

Изначально реализованы только базовые модели эконометрического анализа, необходимо настраивать вручную

Gretl

5

Присутствуют все необходимые элементы для моделирования

Stata

5

Широкий спектр средств для анализа

STATISTICA

5

Присутствует базовый набор эконометрических методов, необходимых для анализа данных, имеется возможность написания макросов

Eviews

5

Обширный спектр инструментов для моделирования

Удобство пользования интерфейсом

SPSS Statistics

4

Удобный интерфейс, но слегка перегруженный

Microsoft Excel

5

Удобный и интуитивно понятный интерфейс

Gretl

4

Понятный интерфейс, нет необходимости дополнительно изучать инструкции, однако существует проблема с организацией анализа из-за хаотично открывающихся новых окон

Stata

5

Удобный интерфейс, присутствует обучение пользователя по работе с программой

STATISTICA

3

Перегруженный графический интерфейс

Eviews

4

Удобный интерфейс

Удобство и сложность выполнения эконометрического анализа и построения моделей

SPSS Statistics

4

Удобный интерфейс, из-за широкого спектра функционала нужно первоначальное изучение

Microsoft Excel

1

Много элементов необходимо вручную задавать, слишком трудоемкий процесс

Gretl

4

Эконометрический анализ очень быстро проводится, и полная статистическая информация может быть получена

Stata

4

Существует сложности при импорте или экспорте информации, также существуют проблемы при использовании внутреннего командного языка

STATISTICA

3

Необходима дополнительная подготовка перед выполнением анализа данных, нужно часто обращаться к документации

Eviews

5

Легкость построения графиков и моделирования процессов

Существование исчерпывающей литературы/видео обучающих материалов

SPSS Statistics

5

Широкий спектр справочных материалов

Microsoft Excel

5

Множество различных обучающих материалов

Gretl

4

Большинство литературы представлено только на английском языке

Stata

5

Множество обучающих материалов, но большинство не имеет российской локализации

STATISTICA

5

Большое количество справочных материалов и различной литературы по работе с программным обеспечением

Eviews

2

Мало справочной литературы, большинство имеющейся не локализовано на русский язык.

Наличие инструментов для настройки программного приложения под индивидуальные нужды

SPSS Statistics

2

Нет гибкости в пользовании приложением

Microsoft Excel

4

Широкие возможности для настройки в рамках ограничений по формату вводимых данных

Gretl

5

Широкие возможности с естественными ограничениями, применяемыми к данным

Stata

5

Нет возможности индивидуально настраивать систему

STATISTICA

3

Существует возможность собственных макросов для автоматизации

Eviews

5

Присутствует возможность индивидуальной настройки элементов системы и написания макросов

Размещено на Allbest.ru

...

Подобные документы

  • Построение схемы сети. Расчет интенсивностей входных потоков для каждой СМО. Проверка стационарности сети. Модель сети на языке моделирования GPSS. Сравнение расчетных и экспериментальных данных по критерию Стьюдента. Проверка адекватности модели.

    контрольная работа [94,6 K], добавлен 28.07.2013

  • Сущность экономико-математической модели, ее идентификация и определение достаточной структуры для моделирования. Построение уравнения регрессии. Синтез и построение модели с учетом ее особенностей и математической спецификации. Верификация модели.

    контрольная работа [73,9 K], добавлен 23.01.2009

  • Методологические основы эконометрики. Проблемы построения эконометрических моделей. Цели эконометрического исследования. Основные этапы эконометрического моделирования. Эконометрические модели парной линейной регрессии и методы оценки их параметров.

    контрольная работа [176,4 K], добавлен 17.10.2014

  • Изучение методов моделирования и анализа панельных данных. Построение ABC-XYZ классификации среди данных широкой номенклатуры по товарным запасам торгового предприятия. Виды исходных данных и построение на их основе модели регрессии по панельным данным.

    курсовая работа [363,2 K], добавлен 23.02.2015

  • Статические и динамические модели. Анализ имитационных систем моделирования. Система моделирования "AnyLogic". Основные виды имитационного моделирования. Непрерывные, дискретные и гибридные модели. Построение модели кредитного банка и ее анализ.

    дипломная работа [3,5 M], добавлен 24.06.2015

  • Теоретическая оценка инфляционных процессов, обзор исследований по российской инфляции и статистических данных. Обзор используемых методов эмпирического анализа, особенности эконометрического моделирования инфляционных процессов в современной России.

    курсовая работа [44,3 K], добавлен 04.02.2011

  • Разработка проектных решений по информационно-методическому обеспечению исследования в области эконометрического моделирования. Анализ тенденций миграционных процессов в странах ЕС и их зависимость от имеющихся факторов, учитываемых при построении модели.

    курсовая работа [2,6 M], добавлен 30.10.2015

  • Тесты, с помощью которых можно построить эконометрические модели. Эконометрическое моделирование денежного агрегата М0, в зависимости от валового внутреннего продукта и индекса потребительских цен. Проверка рядов на стационарность и гетероскедастичность.

    курсовая работа [814,0 K], добавлен 24.09.2012

  • Методы исследования и моделирования социально-экономических систем. Этапы эконометрического моделирования и классификация эконометрических моделей. Задачи экономики и социологии труда как объект эконометрического моделирования и прогнозирования.

    курсовая работа [701,5 K], добавлен 14.05.2015

  • Математическое моделирование как теоретико-экспериментальный метод позновательно-созидательной деятельности, особенности его практического применения. Основные понятия и принципы моделирования. Классификация экономико-математических методов и моделей.

    курсовая работа [794,7 K], добавлен 13.09.2011

  • Оценка адекватности эконометрических моделей статистическим данным. Построение доверительных зон регрессий спроса и предложения. Вычисление коэффициента регрессии. Построение производственной мультипликативной регрессии, оценка ее главных параметров.

    контрольная работа [1,2 M], добавлен 25.04.2010

  • Построение адаптивной мультипликативной модели Хольта-Уинтерса с учетом сезонного фактора. Коммерческий расчет экспоненциально скользящей средней цены с использованием интервала сглаживания. Построение графиков фактических, расчетных и прогнозных данных.

    контрольная работа [626,5 K], добавлен 28.04.2011

  • Постановка цели моделирования. Идентификация реальных объектов. Выбор вида моделей, математической схемы. Построение непрерывно-стахостической модели. Основные понятия теории массового обслуживания. Определение потока событий. Постановка алгоритмов.

    курсовая работа [50,0 K], добавлен 20.11.2008

  • Основные понятия теории моделирования экономических систем и процессов. Методы статистического моделирования и прогнозирования. Построение баланса производства и распределение продукции предприятий с помощью балансового метода и модели Леонтьева.

    курсовая работа [1,5 M], добавлен 21.04.2013

  • Особенности и сущность моделей системной динамики. Характеристика контуров с положительной и отрицательной обратной связью. Моделирование S-образного роста. Разработка модели запаздывания и ее построение. Основные разновидности моделей мировой динамики.

    реферат [134,7 K], добавлен 22.02.2013

  • Основы построения и тестирования адекватности экономических моделей множественной регрессии, проблема их спецификации и последствия ошибок. Методическое и информационное обеспечение множественной регрессии. Числовой пример модели множественной регрессии.

    курсовая работа [3,4 M], добавлен 10.02.2014

  • Процедура проведения имитационных экспериментов с моделью исследуемой системы. Этапы имитационного моделирования. Построение концептуальной модели объекта. Верификация и адаптация имитационной модели. Метод Монте-Карло. Моделирование работы отдела банка.

    курсовая работа [549,5 K], добавлен 25.09.2011

  • Изучение понятия имитационного моделирования. Имитационная модель временного ряда. Анализ показателей динамики развития экономических процессов. Аномальные уровни ряда. Автокорреляция и временной лаг. Оценка адекватности и точности трендовых моделей.

    курсовая работа [148,3 K], добавлен 26.12.2014

  • Анализ сложных систем. Проведение экономического исследования с применением технологии компьютерного моделирования. Построение блок-схем, маршрутов потоков сообщений. Разработка модели работы автобусного маршрута. Многовариантные расчеты модели.

    контрольная работа [53,3 K], добавлен 22.10.2012

  • Определение характеристик переходного процесса с использованием методик математического моделирования. Расчет степени затухания, времени регулирования и перерегулирования, периода и частоты колебаний. Построение графика, сравнение параметров с расчётными.

    лабораторная работа [35,7 K], добавлен 12.11.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.