时间:2013-10-08 15:41 文章来源:http://www.lunwenbuluo.com 作者:牛轩 点击次数:
2.1外点或噪声点
当数据集中存在外点或噪声点时,容易使二分类SVM结果不理想,为此Liu和Huang将模糊化思想引入SVM,提出了模糊支持向量机(FSVM),根据数据点对所在类(正类、负类)的相对重要程度,分配不同的权重,以降低外点和噪声点影响。杨海军、太雷将模糊支持向量机(FSVM)算法引入上市公司财务困境预测,对沪深两市按行业板块分类的上市公司实证分析,显示该模型预测优于C-SVM。
2.2重叠性
传统SVM将样本集绝对分为互斥的两类,但现实世界中这种分类不存在经济意义,即样本很可能存在重叠性,例如财务困境预测时,财务指标既定的企业,可能由于经营远离财务困境,也可能由于经营不力而陷入财务困境。
考虑样本数据重叠性、外点或噪声点,Wang等构建了双隶属模糊支持向量机(B-FSVM),使每个样本点依据隶属函数同时属于两类,并利用3个公开信用数据库实证分析,发现B-FSVM判别能力高于C-SVM和FSVM。阚宝奎、刘志新等[1]将B-FSVM引入上市公司虚拟财务报告识别,其中样本点对于两类样本的隶属程度确定采用谱聚类方法。研究发现,该模型的判别准确率、泛化能力都显著优于C-SVM、BP神经网络,且可以显著降低将虚假财务报告识别为真实财务报告的错误。
张目、周宗放[2]采用多目标规划,减少两类样本企业信用状况的重叠。基于TOPSIS法,分别以“正常企业”样本逼近理想点、“违约企业”样本逼近负理想点为目标,构建多目标规划模型;运用实码加速遗传算法求解得出指标综合权重,通过构造加权样本,减少两类样本企业信用状况的重叠,进而提高SVM预测精度。选取沪、深股市中具有“高新技术概念”上市公司作为实验样本,实证分析得出,该方法一定程度上利于两类样本的正确区分,使SVM的预测精度提高。
2.3非平衡性
经济与管理科学中的二分类问题数据大多存在非平衡性,而非平衡性会对C-SVM分类效果产生不利影响,即C-SVM只会对数量上占优的类别具有很强的识别能力[3]。解决数据非平衡性可使用向下采样方法或构建相应模型。向下采样方法:以客户流失预测为例,从非流失客户中抽取部分样本与流失客户样本构成k:1的训练集。这种方法虽然平衡了训练集类分布,但损失了很多信息,且抽取比例、k取值确定需要多次尝试和实验。
应维云、覃正等[4]考虑到流失客户和非流失客户正负样本数据不平衡,引入分类加权支持向量机算法(CW-SVM),对深圳市某银行个人信贷部的客户信贷数据分析,结果表明CW-SVM要好于神经元网络和决策树方法。其中CW-SVM算法,能够通过调整类权重参数,改变分类面位置,进而提高算法分类准确性。
2.4错分代价差异性
联系方式
随机阅读
热门排行