当前位置:主页 > 38365-365.com > 正文
基于XGBoost的不平衡分类方法研究

基于XGBoost的不平衡分类方法研究
一个景超
【摘要】今天,对不平衡数据分类的研究主要分为数据层次,算法层次和评价指标层次。
当传统的集成学习算法,解决了过度容易调整分类效果不佳的不平衡数据分类的问题,该文件是基于集成学习算法XGBoost,相关参数的优化选择融合特征和算法,数据集和不平衡数据分类问题,开发了特征选择算法。
(1)提出了一种对不平衡数据进行分类的补救算法。它不仅解决了传统补救算法可以进行模拟的问题。当执行随机采样时可以选择过多的加权,并且可以选择多个类别的更有利的属性。
(2)的基础上改进的特征选择算法缓解的基础上,救济的特性和优化GP参数(高斯过程)的选择提出了不平衡分类XGBoost。
首先,我们使用改进的补救算法通过少数分类选择了有利的属性,然后使用XGBoost算法进行分类预测,并使用高斯过程优化算法找到组合。XGBoost的最佳超参数
8个UCI数据集的实验结果表明,该方法可以有效提高不平衡数据的分类性能。
(3)在改进的浮雕算法,人工设置权重的阈值特性δ,如果删除该权重阈值是过大或过小,保留或冗余特性,以删除一个相对重要的特性你可以。
基于近似集理论,提出了一种新的近似集模型。
为了实现比在恶劣的多粒度集模型的目的概念很好的近似逼近效果,最初必然直观模糊集和粗糙颗粒状骨料和粗糙,我们提出了一个扩散直观的多粒度粗糙集模型。我们输入松散缺陷,参数来改进所提出的模型,提出粒度集的近似多粒度直觉变量并证明模型的有效性。最后,根据模型,提出了相应的近似分布。
在模拟实验的结果,它已经从2四个属性比套普通套下降,逼近组建议漫粒度决策理论落后方式分配提议的削减结果的概括。双粒度量化决策理论近似分布收缩算法比这些算法具有少一到五个属性,并且约简结果的逼近精度具有更合理和更优越的性能。
因此,理论和实验都表明,本文提出的联合模型的多重扩散直觉变量在近似逼近和数据降维两方面都具有优越性。。
(4)基于降低近似扩散粒度和扩散直观变量模型近似分布的算法,提出了基于近似集属性约简和GP参数优化的不平衡分类算法XGBoost。
实验结果表明,不平衡数据分类的效果比传统的集成学习算法和第3章提出的算法更有效。
该算法在F-Measure值和AUC值评估指标中均获得了良好的不平衡数据分类结果。
[补助单位]:安徽大学[学位]:硕士课程[年级]:2018年[分类号]:TP 18
下载全文
更多类似的文件

上一篇:如果绳子太紧,有一天它会断裂。   下一篇:什么是道教节?
热门搜索: