Информативность факторов, влияющих на оценку кредитоспособности заемщиков банка
Количество информации - мера, определяющая значимость фактора с точки зрения распознавания. Количественный анализ полученных вероятностных характеристик как задача минимизации признакового пространства. Вычисление информативности по критерию Шеннона.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 07.11.2018 |
Размер файла | 94,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
Размещено на http://www.allbest.ru
При изучении объектов, характеризуемых большим числом факторов, часто бывает важно определить, какие из этих факторов в большей степени влияют на интересующие нас свойства объектов.
Предварительная оценка значимости факторов может быть сделана на основе логического анализа, научных исследований или интуитивно. Однако более точно поставленная задача может быть решена на основе вычисления оценки информационной значимости факторов, которая дает возможность количественно определить степень их значимости.
Применительно к распознаванию образов информативность фактора - это оценка количества информации, которую несет в себе фактор о принадлежности объекта к тому или иному классу.
Таким образом, информативным и мы будем считать те факторы, информативность которых превышает заданное критическое значение. Если же информативность фактора меньше этого критического значения, то этот фактор неинформативный (или малоинформативный).
Количество информации является мерой, которая характеризует значимость фактора с точки зрения распознавания. В то же время количество информации не имеет никакой связи с обще надежностью распознавания и не зависит от правила решения, используемого распознавания системой.
Иногда при небольших изменениях режима эксплуатации объектов информативный фактор может стать либо малоинформативным, либо вообще неинформативным, это показывает неполноту наших знаний о степени неустойчивости процессов, ведущих к появлению отказов. Выход из этого положения один - детальное исследование реальных физических процессов, лежащих в основе развития отказов.
Информативность фактора может быть оценена различными критериями.
Рассмотрим несколько из них: критерий Шеннона; критерий Пирсона; критерий Фишера. Критерий Шеннона - предполагает оценивать информативность как средневзвешенное количество информации, приходящиеся на различные градации признака. Под информацией в теории информации понимают величину устраненной энтропии.
Итак, информативность j - ого признака:
где G - количество градаций признака; K - количество классов; - вероятность i-той градации признака.
,
где - частота появления i-той градации в K - том классе; N - общее число наблюдений.
- вероятность появления i-той градации признака в K - том классе
Пример:
При анализе кредитоспособности заемщиков банка важное значение имеет работает человек или нет. Так как этот признак относится к качественно информации, то для его обработки применяется прием условного кодирования. В данном случае - альтернативного кодирования, то есть такого, при котором признак может принимать одно из двух возможных значении: 0 - кредит не одобрен, 1 - кредит одобрен.
Было проанализировано 20 человек, из которых у 9 - высшее образование, а у 11 - средне - специальное.
Результат приведен в Таблице 1.
Таблица 1 - Исходные данные
Номер градации признака i |
Значения градации |
Номер класса |
||
1(высшее образование) |
2(средне - специальное образование) |
|||
Частоты появления градаций |
||||
1 |
0 |
4 |
9 |
|
2 |
1 |
5 |
2 |
Подсчитаем информативность по критерию Шеннона:
информативность критерий вероятностный минимизация
Значение информативности:
Определение информативности по ч2 - критерию Пирсона. Предположим, что выполнено n измерений некоторой случайной величины : ,(1). И есть основание полагать, что результаты распределены нормально с плотностью вероятности
Параметры закона распределения m и обычно неизвестны. Вместо неизвестных параметров подставляют значения их оценок, которые вычисляются по следующим формулам:
В качестве критерия проверки выдвинутой гипотезы примем критерий согласия Пирсона (критерий согласия “ ч2 ”)
Где k - число интервалов, на которое разбито выборочное распределение, - частоты эмпирического распределения; - частоты теоретического распределения. Из формулы вытекает, что критерий характеризует близость эмпирического и теоретического распределений: чем меньше различаются и , тем меньше значение . Доказано, что при закон распределения случайной величины(5) независимо от того, какому закону распределения подчинена генеральная совокупность, стремится к закону распределения с r степенями свободы.
Пример: Проверить с помощью критерия ч2 при уровне значимости 0,05 гипотезу о том, что выборка объема n = 20, представленная интервальным вариационным рядом в таблице 2, извлечена из нормальной генеральной совокупности.
Таблица 2 - Исходные данные
Номер Интервала I |
Границы Интервала |
Частота |
|
1 |
0 - 2 |
9 |
|
2 |
2 - 4 |
11 |
1. Сформулируем нулевую и альтернативную гипотезы: Н0 - эмпирическое распределение соответствует нормальному, Н1 - эмпирическое распределение не соответствует нормальному.
Для проверки нулевой гипотезы необходимо рассчитать наблюдаемое значение критерия ч2набл по формуле и сравнить его с критическим значением ч2кр.
2. Определим параметры предполагаемого (теоретического) нормального закона распределения.
Найдем середины интервалов и относительные частоты . Получим следующие значения:
Таблица 3
1 |
3 |
||
Найдем оценку математического ожидания:
Вычислим оценки дисперсии и стандартного отклонения:
Выполним расчет теоретических частот .
Последовательно находим для интервала (-8, 2)
Для интервала (2, 4) находим
4. Найдем значение ч2набл
Поскольку (24,51>6,0), то можно считать, что гипотеза о нормальном распределении генеральной совокупности противоречит опытным данным.
Определение информативности по F-критерию Фишера основано на степени различия дисперсий значений фактора в выборках класса A и класса B. Если дисперсия фактора, характеризующего объекты класса A - 2AS существенно не отличается от дисперсии значений фактора у объектов класса B - 2BS , то можно сделать вывод о том, что данные совокупности объектов мало чем отличаются друг от друга. В этом случае фактор признается малоинформативным для распознавания.
Для проверки гипотезы H0: 2 2A B S = S вычисляется контрольная величина F.
Вычисленное значение F сравнивается с табличным значением Fтаб(K1, K2), где K1и K2 - число степеней свободы соответственно большей и меньшей дисперсий (K=N-1).Если F =Fтаб, гипотеза H0 отвергается, фактор информативен. Если F <Fтаб, фактор неинформативен.
В результате предварительного выбора некоторой совокупности признаков и Определения их вероятностных характеристик, а также распределения вероятностей классов имеется наиболее полное описание каждого из классов. Однако такое полное описание для распознавания может не потребоваться. С одной стороны оно может содержать большую избыточность, с другой - иметь ненужные с точки зрения распознавания сведения.
Поэтому возникает задача минимизации признакового пространства. Она представляет собой количественный анализ полученных вероятностных характеристик и окончательное определение совокупности признаков, которые необходимо использовать в процессе распознавания. Основную роль здесь играет то количество информации, которое несет каждый признак. При этом задача минимизации состоит в том, чтобы найти минимальное количество признаков, обеспечивающих заданную надежность распознавания. Это сократит время распознавания и позволит упростить конструкцию распознающей системы.
Размещено на Allbest.ru
...Подобные документы
Система передачи информации, ее количество и логарифмическая мера. Ансамбль сообщений, виды единиц информации. Свойства количества информации. Энтропия как содержательность и мера неопределенности информации, ее свойства. Понятие избыточности сообщений.
реферат [35,1 K], добавлен 01.08.2009Задачи на логику: имена и отчества, вычисление веса, ребусы, треугольники, скорость движения, количество детей в семье, арифметические действия над числами, спички, игральные кости, количество дней в месяцах, вычисление возраста родственников, время.
презентация [2,0 M], добавлен 21.04.2012Решение задач по определению вероятностных и числовых характеристик случайных явлений с обоснованием и анализом полученных результатов. Определение вероятности, среднего значения числа, надежности системы, функции распределения, математического ожидания.
курсовая работа [227,6 K], добавлен 06.12.2010Статистический подход к измерению правовой информации. Графический метод решения задач линейного программирования. Методика решения задач линейного программирования графическим методом. Количество информации как мера неопределенности состояния системы.
контрольная работа [79,4 K], добавлен 04.06.2010Целочисленные задачи математического программирования. Постановка транспортной задачи по критерию стоимости в матричной форме. Задача о назначении (проблема выбора, задача о женихах и невестах). Алгоритм метода Гомори. Формирование правильного отсечения.
курсовая работа [868,8 K], добавлен 05.12.2012Задача о малых колебаниях. Вычисление коэффициентов с помощью быстрого преобразования Фурье. Дискретный подход к вычислению коэффициентов. Вычисление методом Лежандра-Гаусса. Расчет узлов и весовых коэффициентов. Массивно-параллельный расчёт амплитуд.
курсовая работа [2,1 M], добавлен 20.07.2015Начальные геометрические сведения и формирования представлений учеников о понятиях точки, прямой, отрезка, треугольника, параллельных прямых, их расположение относительно друг друга. Задачи на вычисление геометрических величин и изображение фигур.
презентация [222,5 K], добавлен 15.09.2010Философский подход к количественной характеристике и ее переходу к качественной категории. Математический анализ гегелевской логики теории непрерывности. Определение числа посредством бесконечности. Сущность и значение метода дифференциального исчисления.
реферат [35,4 K], добавлен 14.08.2015Линейная производственная задача. Двойственная задача. Задача о "Расшивке узких мест производства". Транспортная задача. Распределение капитальных вложений. Динамическая задача управления запасами. Анализ доходности и риска.
курсовая работа [530,4 K], добавлен 29.05.2006Математические методы распознавания (классификации с учителем) и прогноза. Кластеризация как поиск оптимального разбиения и покрытия. Алгоритмы распознавания и интеллектуального анализа данных. Области практического применения систем распознавания.
учебное пособие [2,1 M], добавлен 14.06.2014Наделение множества метрикой, основные аксиомы метрического пространства. Равномерная метрика, нормы элементов и линейное пространство. Фундаментальная последовательность элементов линейного нормированного пространства. Понятие банахова пространства.
реферат [375,9 K], добавлен 04.12.2011Интеграл по кривой, заданной уравнением y=y(x). Вычисление криволинейного интеграла. Кривая от точки А к В при изменении параметра. Непрерывные функции со своими производными. Отрезок параболы, заключенный между точками. Решение разными методами.
презентация [44,4 K], добавлен 17.09.2013Доказательство существования или отсутствия алгоритма для решения поставленной задачи. Определение алгоритмической неразрешимости задачи. Понятия суперпозиции функций и рекурсивных функций. Анализ схемы примитивной рекурсии и операции минимизации.
курсовая работа [79,5 K], добавлен 12.07.2015Вычисление производной функции. Угловой коэффициент прямой. Интервалы монотонности, точки экстремума и перегиба функции. Вычисление интегралов с помощью универсальной тригонометрической подстановки. Нахождение площади фигуры, ограниченной линиями.
контрольная работа [696,1 K], добавлен 05.01.2013Практическиое решение задач по теории вероятности. Задача на условную вероятность. Задача на подсчет вероятностей. Задача на формулу полной вероятности. Задача на теорему о повторении опытов. Задача на умножение вероятностей. Задача на схему случаев.
контрольная работа [29,7 K], добавлен 24.09.2008История, понятия и методы решения задач на экстремум. Знаменитые задачи на максимум и минимум: Кеплера, Фаньяно, Дидоны и Ферма–Торричелли–Штейнера. Аналитический и геометрический методы как более подходящие инструменты решения с научной точки зрения.
курсовая работа [483,0 K], добавлен 10.01.2015Задача численного интегрирования функций. Вычисление приближенного значения определенного интеграла. Нахождение определенного интеграла методами прямоугольников, средних прямоугольников, трапеций. Погрешность формул и сравнение методов по точности.
методичка [327,4 K], добавлен 01.07.2009Задачи которые решает корреляционный анализ. Определение формы связи - установление математической формы, в которой выражается связь. Измерение тесноты, т.е. меры связи между признаками с целью установления степени влияния данного фактора на результат.
реферат [67,3 K], добавлен 09.11.2010Задача теории приближений - нахождение связей между структурными свойствами функции и порядком стремления к нулю последовательности ее наилучших приближений тригонометрическими или алгебраическими полиномами. Вычисление модулей гладкости для функций.
дипломная работа [4,4 M], добавлен 11.06.2013Основные определения теории уравнений в частных производных. Использование вероятностных, численных и эмпирических методов в решении уравнений. Решение прямых и обратных задач методом Монте-Карло на примере задачи Дирихле для уравнений Лапласа и Пуассона.
курсовая работа [294,7 K], добавлен 17.06.2014