分析类论文范文 与基于聚类差异度分析的客户筛选规则挖掘有关论文范文

该文是关于分析论文范文,为你的论文写作提供相关论文资料参考。

基于聚类差异度分析的客户筛选规则挖掘

吴敏 白宗钦 邵明 符江 郑徳智 王烨 闭思泽

在发展农村普惠金融的实践中,商业银行、农村信用社等金融机构在数据仓库中积累了大量的用户交易数据.庞大的历史数据不但给数据管理系统带来了巨大的运维压力,而且持续增加的数据量增加了对数据价值挖掘和变现的难度.以海南农信社为例,虽然自2007 年起,海南农信社开始注重积累客户交易数据,但鉴于客户群体小、微、散等特点,使得相当部分信贷客户的“好”、“坏”倾向无法从交易数据中直接区分出来.而现有的客户初步筛选和审核基本依赖于信贷业务员的个人专业背景和从业经验,一方面容易导致潜在价值客户的流失,另一方面可能会放进一些潜在风险客户.因此,如何从现有的数据中挖掘出一些客户筛选规则,以科学客观的角度支持业务员进行客户筛选,同时提高历史数据的利用率,具有较高的研究价值.

在审核客户贷款申请和主动营销过程中,农信社信贷员往往需要基于一些规则来对申请客户进行判别.常见的方法是,信贷部门基于一组规则来制作评分表,然后利用评分表对客户进行打分,再推送到其他贷款审批流程.理想的用户评分表中包含的规则会使得“好客户”的评分尽可能高,“坏客户”的评分尽可能低.然而在实际情况中,有一部分好客户和坏客户是可以从交易数据中找出一些边界条件或者规则来区分的,还有一部分好客户和坏客户则无法通过交易数据来区分.

与此同时,随着描述客户维度的激增,一些特征自动选择方法已经得到一定程度的应用,但这些方法获得的特征通常无法反映客户在一定时期内的统计特性,并且由于坏、好客户数量比例相差较大(坏客户样本数量只有好客户数量的几十分之一),导致这类方法生成的筛选条件对坏客户的区分能力很弱.因此,如何过滤出具有客户好、坏区分能力的数据,同时生成有效的筛选规则,对银行业务处理具有十分重要的意义.

本文针对客户好坏可区分数据(优质数据)的筛选和客户筛选规则挖掘两个问题,提出了一套基于聚类差异度分析的方法.该方法通过聚类算法反复迭代提取最大同类数据样本来进行客户的抓取,并提出一种同类-差异性变化图形去辨识客户好坏的区分边界条件,当最终的抓取数据集中存在区分边界,则认定该部分数据具有客户好坏区分能力,属于优质数据.同时,得到的边界条件还可以转换为客户筛选规则,用于好客户和坏客户的筛选.

一、基于聚类差异度分析的客户筛选规则挖掘框架

基于聚类差异度分析的客户筛选规则挖掘框架如图1 所示,由金融机构科技与业务部门两条主线构成,共分为三个层面——数据层、处理层、评估层.

(1)在数据层,项目涉及的数据字段由业务人员提供给科技人员,再由科技人员从数据仓库中抽取出来.

(2)在处理层,主要涉及两大模块——数据预处理模块、聚类差异度分析模块.其中,数据预处理模块会对抽取数据分别进行渠道数据稀疏度判别、异常字段检测和数据规范化等三个步骤的数据清洗和整理;然后,聚类差异度分析模块会找出各渠道清洗数据的客户好坏区分边界.该模块的设计思路是:利用聚类算法迭代筛选最大客户群体,如果在包含坏客户数量最高的群体中,还存在好客户和坏客户的区分边界,那么该边界条件可以被认为具有很强的区分性,相应部分数据能被接受为可区分数据,相应的边界条件可以转化为客户筛选规则;反之,则判定该渠道数据中不存在可区分数据,且不存在客户筛选规则.该模块基于聚类算法,根据账面相似程度,反复筛选最大的坏客户包含群体,接着生成同类——差异性变化图形来分析每个最大群体的区分边界.

(3)在评估层,本文从数值评估方式和数据可视化方式两方面向业务人员验证分析结果的科学性和有效性.对于数值评估方式,本文分别对单一客户筛选规则、规则交集组合和规则并集组合进行好客户和坏客户的召回率测试,即测试对于整个数据集,挖掘得到的规则能够过滤出多少好客户和坏客户.对于数据可视化方式,主要是将原始数据集进行降维显示,比较规则实施前后好客户群体与坏客户群体的区分程度,以此来直观地评估处理方法的有效性.

二、基于聚类差异度分析的客户筛选规则挖掘过程

1. 数据抽取及定义

根据业务部门提供的字段表,数据大致被分为7 个种类,共227 个维度.其中,不良余额、贷款合同笔数和贷款合同金额被用来区分潜在违约客户和优质资产客户,其他种类数据被定义为挖掘对象数据.与业务部门沟通后,根据不良余额、贷款笔数来鉴别客户是否发生过贷款、发生过几次贷款、是否处于合约期或违约期等,然后基于这些信息将客户划分成6 个等级.其中,等级1~2 的客户定义为潜在违约客户(坏客户),等级3~6的客户被定义为优质资产客户(好客户).由于每个客户不一定覆盖到所有种类的数据,所以需要对各个种类数据进行核对和整理,那些数据不完整的客户将不计入分析过程.

2. 数据预处理

在数据抽取和定义之后,需要从数据处理的角度对数据进行清洗,由渠道数据稀疏度判别、异常字段检测和数据规范化三个部分组成.

(1)渠道数据稀疏度判别

首先,需要判断各个渠道的数据是否稀疏,因为数据稀疏意味着该渠道包含的用户信息较少,能够区分客户好坏的信息更加少,因此需要在正式进行分析前进行判断和筛选.对于数据稀疏度判定的问题,借鉴工程计算的经验和方法,本文将其转化为非奇异H 矩阵的判别问题予以解决.假设某个种类的数据为D ,其近似

(2)异常字段检测

在原始字段表中,可能会存在某些字段的数值远远超出其他字段的数值,导致其他字段数值区分能力下降,因而需要对原始字段数据进行异常字段检测.本文基于轮廓图来实现对异常字段的捕获和识别.令原始数据集

从图2(a)中可以看出,原始字段数据中有一个字段的数值(经查证为存款时点余额的最大值)远远超出其他字段的数值,导致各个等级客户的账面特征难以直观地区分开来;将该种类数据剔除后,如图2(b)所示,已经可以很明显地看出等级6(蓝色)与等级5 客户(绿色)的差异性.

(3)数据规范化

最终清洗出来的数据主要涉及金额和笔数两个方面,金额有年度/ 季度(5 个季度)/ 月度(17 个月)平均余额、17 个月的存款金额以及17 个月取款金额;笔数有17 个月的存款笔数、17 个月取款笔数和17 个月的POS 消费笔数.由于金额和笔数的实际意义存在明显的区分性,因而需要对两者分开进行[0,1] 规范化.令金额变量表示为money ,笔数变量表示为count ,则相应的规范化处理如下:

分布的影响,可以很明显地观察到在这些拟合分布95%的置信水平范围内,已经足以包含所有的季度平均余额值,因此本文仍然使用正态分布来计算最大聚类群体在置信水平为95% 时的置信区间.

本文对所有最大聚类群体各个等级客户(季度平均余额)进行置信区间求解,并将结果图形化,称之为同类- 差异性变化图形,季度平均余额的同类- 差异性变化图形如图5 所示.

在图5 中,水平轴表示随着最大聚类群体的反复挑选,筛选出来的群体属于同一类的可能性越来越高;垂直轴表示的是各个等级客户置信区间,随着同类可能性增高时,各等级客户间差异度的变化趋势.由图5 可以观测到,尽管当前群体无法再被聚类算法进行划分,但客户群体等级1~2 与等级3~6 之间存在着明显的间距,说明当前字段的数据是可以将这两部分客户群体区分开来的.由此本文利用该方法对其他字段数据进行了同类- 差异度分析,并发现月均取款笔数这个字段的数据无法对客户好坏进行区分,等级1~2 与等级3~6 的差异度变化存在交叉现象,分析结果如图6 所示.

(4)区分边界判别

基于各个字段的同类- 差异性变化分析图形,本文将具备区分能力的字段和相应的边界条件挑选出来,并整理成规则,结果见表1.

在表1 中,坏客户和好客户对应括号中的数值为边界值,由同类- 差异性变化分析图形直接给出,计算方法参考如下公式(括号外的数值为经过人工考量,适当放宽取得的区分边界):

4. 评估方法

本文从数值评估方式和数据可视化评估方式两个角度对挖掘得到的规则进行评估.数值评估方式主要由单一规则的召回率测试、规则交集组合的召回率测试、规则并集组合的召回率测试等三个方式组成.其中,单一规则的召回率测试指的是对每一条规则单独进行好客户和坏客户的筛选检测,统计对于原始数据集相应字段数据,有多少好客户/ 坏客户能够被筛选出来;规则交集组合的召回率测试指的是,满足所有规则下,有多少好客户/ 坏客户能够被筛选出来;规则并集组合的召回率测试指的是,满足任意一条规则下,有多少好客户/ 坏客户能够被筛选出来.相应的召回率计算方法如下.

其中,i 表示第i 条规制,found_good 表示筛选到的好客户数量,found_bad 表示筛选到的坏客户数量,all_good 和all_bad 分别表示所有的好客户数量和坏客户数量.

数据可视化评估方式通过将原始的高维数据降维到二维平面空间,能够直观地让科技人员与业务人员看到规则实施前后,好客户与坏客户之间的区分程度.

三、实验分析

根据本文给出的评估方式,对261 076 个客户(含251 961 个好客户、9115 个坏客户)的交易数据进行客户筛选,召回率的评估结果如表2 和表3 所示.

在单一规则筛选的召回率测试中,每一条规则对于坏客户都有比较理想的过滤作用,但对于好客户群体,这些规则只能筛选出25% 至35% 的好客户,原因在于剩下的好客户交易数据很可能与坏客户交易数据无法区分开来,被当作是坏客户过滤出去,具体的原因还需要做进一步的研究与分析.表3 的结果显示,通过对单一规则进行某些组合或者设定某些逻辑触发结构,可以有效地调节对好客户/ 坏客户筛选的效果.例如,通过将规则进行并集形式的组合,可以有效地提高对好客户和坏客户的筛选比例;而如果采用交集形式对规则进行组合,则能够更加严格地控制好客户群体的准入门槛,同时只有较小程度地坏客户过滤能力下滑.

可视化评估结果如图7 所示,从数据可视化的角度展示了客户筛选规则在不同形式组合下对原始数据区分程度的改善情况.图形中的蓝色圆点表示好客户,橙色圆点表示坏客户.

图7(a)是原始数据降维后的结果,可以观察到好客户群体与坏客户群体没有呈现出明显聚集群体,坏客户比较平均地分布在好客户之间.图7(b)是规则并集组合后的筛选效果,总体客户数量下降了大约五成,主要集中在好客户群体.虽然在图中仍然能够观察到有某些成聚集状态的坏客户群体分布在好客户群体之间,但数量并不是很多,并且已经可以很明显地观察到有两拨坏客户群体与好客户群体分离出来,分别处在图像中的左上部分和右下部分.图7(c)是规则交集组合后的筛选效果,总体客户数量下降了大约八成,主要集中在好客户群体.在图中,可以很明显地观察到好客户群体与坏客户群体之间是相互分开的,两者之间存在一个显著的边界,并且两者相互包含的数量非常少.

基于聚类差异度分析能够实现对客户筛选规则的挖掘,得到的规则能够有效地对客户好坏进行区分,并且实现对客户好坏可区分数据(优质数据)的捕获.该方法得到的规则,不但可以应用到银行相关的系统中,还可以直接支援业务人员对客户进行审核和筛选,从而实现对银行大数据价值的挖掘和变现.

(吴敏、白宗钦、邵明、符江、郑徳智、王烨任职于海南省农村信用社联合社)

分析论文范文结:

关于本文可作为分析方面的大学硕士与本科毕业论文分析论文开题报告范文和职称论文论文写作参考文献下载。

相关分析毕业论文范文

相关参考论文写作资料

热门分析论文题目