Motivation
最常用来在 Active Learning 中作为样本检索的两个指标分别是:
- 基于不确定性(给模型上难度);
基于多样性(扩大模型的推理空间)。
指标一可能会导致总是选到不提供有效信息的重复数据(例如模棱两可的、毫无价值的样本);而指标二会导致选择到的样本虽然具有多样性,但是太过于简单(你以为是选择个对于模型来说很陌生的样本,但模型说这种难度早就掌握了),不能有效增强模型能力。
Analysis
某些样本在模型特征空间中距离很近,但是模型推理的似然概率却差异很大,称为对比样本(样本距离很近,但分类的结果却不同,那么决策边界就在其中!作者认为这种样本很重要)。
在特征空间中的 Embedding 很相近,但是推理的结果差异老大了。
Algorithm
对于每个样本点,利用 KNN 选择 它的最临近的 k 个样本,计算被选择的 k 个样本的似然概率,与最开始的样本求 KL 散度后平均,作为 这个样本点的 CAL 得分,CAL 越高,证明自己越特殊(身边的邻居跟自己的分类结果都不一样)。