基于成对约束的偏标记数据消歧算法

引用本文
征察, 吉立新, 高超, 李邵梅, 吴翼腾. 基于成对约束的偏标记数据消歧算法. 自动化学报, 2020, 46(7): 1367-1377. doi: 10.16383/j.aas.c170522
ZHENG Cha, JI Li-Xin, GAO Chao, LI Shao-Mei, WU Yi-Teng. Partial Label Data Disambiguation Algorithm Based on Pairwise Constraints. ACTA AUTOMATICA SINICA, 2020, 46(7): 1367-1377. doi: 10.16383/j.aas.c170522
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170522
关键词
偏标记数据,消歧,数据不平衡,低秩表示,成对约束
摘要
偏标记数据消歧是利用偏标记数据进行机器学习的基础.针对偏标记数据中广泛存在的数据不平衡问题, 以及现有消歧算法对样本间约束信息利用不足的问题, 本文提出一种基于成对约束的偏标记数据消歧算法.首先, 基于低秩表示, 推导出数据不平衡条件下样本低秩表示系数和样本相似度之间的关系; 其次, 基于推导结果, 分别构建基于样本间正约束和负约束的图模型, 通过最小化图模型的能量函数求解偏标记数据的标签.在5个公开数据集上的实验结果表明本文方法相对基准算法在消歧准确率上平均提高了2.9 % ~ 14.9 %.
文章导读
偏标记数据是一种常见的弱监督数据.在这类数据中, 每个样本同时具备多个候选类别标签,
但只有一个标签是正确的.

图
为利用偏标记数据进行学习, 文献[3]提出一种基于纠错输出编码的偏标记学习方法, 直接利用偏标记数据训练一个多分类器, 但该方法在训练过程中可能存在部分数据未被利用的情况.为充分利用偏标记数据, 大多数偏标记学习算法[4-10]首先对偏标记数据进行消歧, 确定每个偏标记样本的正确类别标签.根据是否需要利用参数模型来假设样本分布, 现有的消歧方法可以分为两类: 1)基于辨识(Identification)的消歧; 2)基于平均(Averaging)的消歧.
基于辨识的消歧将偏标记样本的真实标签设为参数模型的隐变量, 并基于最大似然准则[2], 或最大间隔准则[5,
虽然现有的基于图模型的消歧算法具有无需模型假设的优势, 但仍存在问题.首先, 偏标记数据通常具有较高的维度, 而欧氏距离等一些常用于度量相似度的方法在高维空间中通常难以奏效.近年来, 在半监督学习和聚类领域, 低秩表示[12]因擅于表达高维数据结构而在构建图模型时取得良好效果[13-15].然而, 这些方法都是针对数据平衡的数据集, 而偏标记数据常面临数据不平衡问题, 因此无法直接将低秩表示用于偏标记数据消歧.其次, 现有消歧算法中, 建立图模型时只利用一种样本间约束, 即更相似样本之间边权重越大, 标签相同的可能性越大.但在半监督、聚类领域, 有两种约束得到广泛使用, 其中一种被称为正约束(Must-link), 即部分样本必定属于同一类, 另一种为负约束(Cannot-link), 即部分样本必定属于不同类.这两种约束通常共同使用, 因此被合称为成对约束.研究表明利用成对约束能有效提高聚类效果[16-17].受此启发, 本文将成对约束的概念迁移至偏标记数据消歧中, 将"相似样本应具有相同标签''定义为正约束, 将"差异较大的样本应具有不同标签''定义为负约束, 采用成对约束对偏标记数据消歧.
综上, 本文提出一种基于成对约束的偏标记数据消歧算法(Partial label data disambiguation algorithm based on pairwise constraints, PLDPC), 其创新之处在于: 1)针对偏标记数据中广泛存在的数据不平衡问题, 研究该条件下低秩表示系数和样本相似度的关系; 2)在考虑数据不平衡后, 利用低秩表示构建两个分别基于正、负约束的图模型, 并基于定义在图模型上的能量函数[18], 结合类块标准化(Class mass normalization)准则[19]进行消歧.
本文主要分为5个部分:第1节简要介绍低秩表示算法; 第2节和第3节是本文的主要工作:第2节对数据不平衡条件下低秩表示系数和样本相似度的关系进行分析, 第3节基于第2节中的结论提出基于成对约束的偏标记数据消歧算法; 第4节是仿真实验及结果; 第5节对本文进行总结.

图

图
基于图模型的偏标记数据消歧是近年来的研究热点, 而采用何种方式构建图模型是该问题的关键.低秩表示作为一种效果优异的子空间分割算法, 在基于图模型的聚类、半监督学习等领域得到了广泛应用.然而这些领域在利用低秩表示来分析样本间的相似度时, 未考虑数据不平衡对低秩表示的影响, 以及数据不平衡时低秩表示系数表示样本间相似度的合理方式.而在偏标记数据中, 数据不平衡是一种普遍存在的问题, 因此本文详细研究了数据不平衡时低秩表示系数表示样本相似度的合理方式, 并在实验中验证了研究结论的正确性.此外, 针对现有方法仅利用样本间正约束, 忽略了负约束的问题, 本文综合利用正负约束来设计图模型, 并通过最小化基于图模型的能量函数求解出样本的标签.实验结果表明, 相比PL-KNN、IPAL、PL-LEAF等基准算法, 本文方法在所有数据集上都有更高的准确率; 相比MMS算法, 本文方法尽管在Lost、Yahoo!News两个数据集上准确率略低, 但平均消歧准确率优于MMS, 且效率平均提高了约10倍, 说明本文方法能够在保证效率的情况下具有更高的消歧准确率, 适用于对消歧准确率要求较高的应用场景.
作者简介
吉立新
国家数字交换系统工程技术研究中心研究员.主要研究方向为电信网信息关防, 信息安全.
E-mail:
高超
国家数字交换系统工程技术研究中心助理研究员.主要研究方向为计算机视觉.
E-mail:
李邵梅
国家数字交换系统工程技术研究中心副研究员.主要研究方向为计算机视觉. E-mail:
lishaomei
吴翼腾
国家数字交换系统工程技术研究中心博士研究生.主要研究方向为网络大数据分析.
E-mail:
征察
国家数字交换系统工程技术研究中心硕士研究生.主要研究方向为机器学习, 计算机视觉.本文通信作者.
E-mail: