银行贷款发放信用评价问题数学模型 第2页

银行贷款发放信用评价问题数学模型 第2页
四、模型的建立
4.1数据的预处理 
4.1.1  离散型变量取值数值化
由于本文属性变量的类型有两种:连续型和离散型,且离散型变量的取值均为字符型,无法用相关函数来刻画属性和因变量之间的关系。所以,我们必须将离散型变量取值数值化。因而,每个离散型变量的取值需重新定义。根据假设,给出的变量符号没有任何的意义;数据经转换后保留了原始数据的某些统计特征,即问题的可预测性。
定义:任意一字符 的取值:                                   (1)
其中: :当 时字符 的总个数
 :不考虑 类别时字符 的总个数
根据该定义,利用SPSS统计软件的强大统计功能,求出每个离散型变量的每个字符的取值,使其变为数值型。处理结果如表一所示。

表一  离散型变量取值数值化
属性 离散型变量的取值
A1 a = 0.4481, b = 0.4532
A4 u = 0.5, y = 0.2857, l = 1, t = 0
A5 g = 0.5, p = 0.2857, gg = 1
A6 c = 0.4590, d = 0.2800, cc = 0.7500, i = 0.2549, j = 0.3333, k = 0.2889, m = 0.4286, r = 0.6667, q = 0.6032, w = 0.5172, x = 0.8235, e = 0.5833, aa = 0.3830, ff = 0.1458
A7 v = 0.4282, h = 0.6311, bb = 0.4600, j = 0.3750, n = 0.5000, z = 0.7500, dd = 0.3333, ff = 0.1538, o = 0.5000
A9 t = 0.7962, f = 0.0605
A10 t = 0.7008, f = 0.2560
A12 t = 0.4821, f = 0.4250
A13 g = 0.4689, p = 0.5000, s = 0.2692
4.1.2  属性变量的筛选
本文预先给出了大量的数据,因此我们先考察各属性变量间的关联性;一方面将与因变量( )相关性不大的变量剔除,另一方面从自变量( )之间相关性非常大选择其一。根据假设,我们不考虑属性变量的顺序,即所有属性变量都为无序列属性变量。利用SPSS统计软件对这15个自变量和因变量做相关性分析,可得到各个变量之间的相关性系数( ),见附表一。
我们定义两变量之间的强度关系如表二:
表二  两变量间的强度关系定义
相关性系数 强度关系
存在显著性相关
高度相关
中度相关
 低度相关
关系极弱
认为不相关
从相关性系数表中我们可以看出自变量 和 与因变量 的相关性很弱,分别为0.005和0.057;而自变量 和 之间存在显著相关性,其相关系数为1。这样,我们可以从15个自变量中剔除3个(这里选择 、 和 ),使变量数目减少。为了便于描述,本文将这剔除的3个变量给与保留,但令其权值系数分别为 、 、 。
4.1.3  背景资料的筛选
鉴于12个自变量都转化成数值型的变量。通过回归分析(假设不考虑变量的多次回归相关性)对数据进行深挖掘,利用MATLAB对600家申请贷款企业的背景资料作时序残差图(如图一),考察分析时序残差图,发现有64个奇异点(时序残差图中红色线)见附表二,即有64家申请贷款企业背景资料应剔除,最后利用模型进行回代检验也证实了这一点。
图一  时序残差图
4.2模型的建立
4.2.1  Logistic回归模型
根据筛选后剩下的536个申请贷款企业背景资料及打分情况,对第 家申请企业的打分值 ,令:
                        (2)
在已经打分的536个申请贷款企业中, 的值是已知的。
由于15个属性变量的取值都已转化为数值型变量,且每一位申请者的15个变量的值都是一个大于0的数,假设不考虑属性变量和数值变量在模型中的交叉作用,则可以建立具有15个属性变量的Logistic模型:
                                (3)
其中, 为第 个申请贷款企业的信用值,第 家申请企业的15个指标 为影响变量, 为第 个属性的权值系数, 为申请贷款企业 的违约概率。
由Logistic的函数图像(如图二)知, 是 的连续增函数,  并且 。所以 。
图二  Logistic函数图像
对于某一申请贷款企业 ( )而言,如果其Logistic回归值 接近于0(或 ),则其评分为‘-’;若其Logistic回归值 接近于1(或 ),则其评分为‘+’。并且 值越远离0,表示该申请企业贷款信用度越差;反之,表示该申请企业贷款信用度越好。 
4.2.2 修正Logistic回归模型
由于企业自身的原因(如漏填或有意不填),有些项的指标没有填写(没有填写的项在表中为?)。针对这种情况,为了对此类申请贷款企业(题中表3的后37名)进行打分,以确定是否为其提供贷款,本模型利用 算子的思想,创造性的构建了缺省信息值 ,对缺省信息进行了有效地处理。从而合理的对判别准则Logistic回归模型进行了修正,有效的解决了此问题。

上一页  [1] [2] [3] [4] [5] [6] [7] 下一页

Copyright © 2007-2012 www.chuibin.com 六维论文网 版权所有