当前位置: 主页 > 学术动态 >

基于帕累托最优的多标签特征选择

点击数:   更新日期: 2021-09-09

论文题目:A novel feature selection approach with Pareto optimality for multi-label data

发表期刊:Applied Intelligence,2021(JCR Q3,CCF C)

原文DOI:https://doi.org/10.1007/s10489-021-02228-2

作者列表:

1)李国和 中国石油大学(北京)信息科学与工程学院

2)李   勇 中国石油大学(北京)信息科学与工程学院 研17

3)郑艺峰 中国石油大学(北京)信息科学与工程学院 博17

4)李   莹 中国石油大学(北京)信息科学与工程学院 博16

5)洪云峰 中国反侵权假冒创新战略联盟

6)周晓明 厦门瀚影物联网应用研究院

论文简介

随着智能应用的普及,多标签学习已广泛应用于机器学习、数据挖掘等领域。特征选择过程旨在选择近似最优的特征子集以表征原始特征空间,提高多标签分类性能。针对连续型数据,提出基于帕累托最优的多标签特征选择方法(MLFSPO)。通过Hilbert-Schmidt独立性准则,将多标签特征映射到高维空间,以评估特征和标签的相关性;进一步将特征排序、标签权重与帕累托优化相结合选择特征子集。实验结果表明MLFSPO算法的有效性。

背景与动机

当今数据快速增长,同时数据样本的维度也不断提高,增大了数据建模的复杂性,降低了建模效率和泛化能力。特征选取解决数据样本降维十分重要。现实中每个对象往往具有多义性(即同时含有多个标签信息)。与单标签特征选择相比,多标签的特征选择面临输出空间过大、特征和类别标签之间的相关性复杂等,开展多标签的特征选择具有重要意义和价值。

设计与实现

采用希尔伯特-施密特独立性准则(Hilbert-Schmidt Independent Criterion,简称HSIC)计算特征和标签之间的关联程度,其直接用于连续型数据,无需对数据离散化预处理。在核空间中,HSIC评估核空间中两个变量的依赖程度,并采用经验估计衡量变量之间的依赖性。

每个样本对应多个标签,每个特征对于标签集的相关性视为多目标优化问题,以特征和标签之间的关联程度为目标函数。将帕累托最优概念引入多标签特征选择,提出两种多标签特征选择算法——UN-MLFSPO和MLFSPO。UN-MLFSPO算法无需预先设置特征选择阈值,自动选择特征子集的大小。MLFSPO算法适用于需要人工设置特征选择数目,且可在其中标签加权。

图1 UN-MLFSPO算法流程图

图2 MLFSPO算法流程图

实验结果

为了验证所提算法有效性,对比MDDMspc,MDDMproj,PPT-MI,ReliefF-ML,PMU,MFNM,ParetoFS算法,采用yeast、CAL500、nuswide-bow、nuswide-cVLADplus和Society数据集进行实验。

以Society数据集为例,图3展示实验结果,其中每个折线图展示各多标签特征选择算法在不同的评价指标下分类性能随特征数目变化。其他数据集实验结果与图3类似。

结论

UN-MLFSPO和MLFSPO是有效的面向多标签的特征选取方法,可提高智能建模的效率和精度。

图3 Society数据集实验结果

作者简介:

李国和:博士,教授,博士生导师。主要研究是智能信息处理、数据可视化等。