雷锋网AI开发者按,如果你曾经使用过诸如 CIFAR、MNIST、ImageNet 或 IMDB 之类的数据集,那么你可能会假设类标签是正确的。令人吃惊的是,ImageNet 中可能至少有 10 万个标签有问题。为什么我们不早点找到它们?在海量数据集中描述和发现标签错误的原则性方法非常具有挑战性,解决方案也很有限。

在这篇文章中,作者讨论了一个新兴的、原则性的框架,用于识别标签错误、描述标签噪声,并使用被称为置信学习(CL)的噪声标签进行学习,该框架是开源的 cleanlab Python 包。

此外,家长帮为家长们准备了诸多福利。如在家长帮APP上,家长不仅能和“家长帮网红麻麻”李桂香共同渡过与孩子的宅家时光,还可以一键领取家长帮独家研发的家庭教育工具全套装,包含家庭教育100问、时间管理30问、陪写作业工具、长高工具等内容。

另外,任天堂将从旺宏采购芯片的消息也是真实的。在旺宏今年早些时候的财务报告中显示:“任天堂的订单查过了了我们的预期。”TweakTown表示,任天堂的采购的芯片可能将用于配件而不是主机本身。

目前,家长帮APP家长大学频道的60堂主题课程都已免费开放,其中包含“专注力提升”“小学家长必修课”等干货,共2000节,沉淀了60余位教育专家的研究成果。值得一提的是,这些主题课程均为音频课程,内容涵盖了从学前到高中家庭教育中的大部分需求,时间长度适中,适合忙碌的家长在碎片时间收听。

在上图中,每种方法的直线上的每个点,从左到右,描述了训练的准确性,去除了 20%、40%…、100% 的估计标签错误。黑色虚线用所有例子描述了训练时的准确性。当移除少于 100k 个训练示例时,使用 CL 在清洗过的 ImageNet 训练集上训练(不添加合成噪声),观察 ResNet 验证精度的提高。当超过 100k 个训练实例被移除时,观察使用 CL 相对于随机移除的改善,如红色虚线所示。

你可能对它的数学过程比较好奇,好吧,这个计数过程采用的是下面的公式:

在添加标签噪声的 CIFAR 中标签噪声的良好表征

ImageNet 本体论问题中类命名问题的自动发现

理论上,论文给出了 CL(定理 2:一般的逐例稳健性)准确地发现标签错误并一致地估计噪声和真实标签的联合分布的现实条件。我们的条件允许每个例子和每个类的预测概率中有错误出现。

剪枝以搜索标签错误。例如,通过损失重加权使用软剪枝,以避免迭代重标记的收敛陷阱。 对干净数据进行统计训练,避免在不完全预测概率的情况下重新加权损失(Natarajan et al.,2017),从而避免学习模型权重中的错误传播。 对训练期间使用的示例进行排序,以允许使用不规范概率或 SVM 决策边界距离进行学习。

CL 是在处理噪音标签的文献中制定的原则之上建立起来的:

云南省新增确诊病例和累计治愈出院病例趋势图

论文的理论和实验结果强调了置信学习的实用性,例如识别 ImageNet 和 CIFAR 中的许多标签问题,并通过在清洗过的数据集上进行训练来提高标准 ResNet 的性能。置信学习促使人们需要进一步了解数据集标签中的不确定性估计、清洗训练集和测试集的方法以及识别数据集中本体论问题和标签问题的方法。

2012 年 ILSVRC ImageNet 训练集中通过置信学习确定的前 32 个标签问题。标签错误用红色框表示,绿色表示本体论问题,蓝色表示多标签图像

上图显示了使用置信学习发现的 2012 ILSVRC ImageNet 训练集中的标签错误的例子。为了便于解释,我们将使用 CL 在 ImageNet 中发现的标签问题分为三类:

在高噪音和高稀疏的情况下,平均来说,CL 提高了 10% 以上高噪声学习水平和 30% 以上的高稀疏学习水平。

有关 CL 算法、理论和证明的全部内容,请阅读这篇论文。这里,我总结一下论文的主要观点。

上图显示了 CIFAR 中标签噪声联合分布的 CL 估计,标签噪声增加了 40%。观察(b)中的 CL 估计与(a)中的真实分布有多接近,以及(c)中矩阵中每个项的绝对差的低误差。概率被放大 100 倍。

为了了解 CL 是如何工作的,让我们假设我们有一个包含狗、狐狸和牛的图像的数据集。CL 通过估计噪声标签和真标签的联合分布(下图右侧的 Q 矩阵)来工作。

多标签图像(蓝色):在图像中有多个标签 本体论问题(绿色):包括“是”或 “有”两种关系,在这些情况下,数据集应该包含其中一类 标签错误(红色):数据集别的类的标签比给定的类标签更适合于某个示例

雷锋网(公众号:雷锋网)雷锋网雷锋网

直接估计噪声和真标签的联合分布 适用于多类数据集 查找标签错误(错误按最有可能到最不可能的顺序排列) 是非迭代的(在 ImageNet 中查找训练标签错误需要 3 分钟) 在理论上是合理的(现实条件下准确地找到标签误差和联合分布的一致估计) 不假设标签噪声是随机均匀的(在实践中通常行不通) 只需要预测概率和噪声标签(可以使用任何模型) 不需要任何真实(保证不损坏)的标签 自然扩展到多标签数据集 作为 cleanlab Python 包,它是免费、开源的,用于描述、查找和学习标签错误

样本外预测概率(矩阵大小:类的样本数) 噪声标签(矢量长度:示例数)

除了免费开放主题课程之外,家长帮家长大学讲师团还联合中美教育专家黄全愈、青春期心理导师默薇、耶鲁妈妈杨玉芬等10余位大V开通线上直播课,畅谈包括如何保护孩子的心理健康、帮孩子保持学习状态以及提升孩子免疫力等内容,帮助家长们在疫情期间有针对性地学习。家长帮还充分发挥其在家庭教育内容领域的专业性,为家长提供亲子影视书籍推荐、心理状态测评、亲子互动游戏教程等服务。

使用标签噪声的联合分布查找标签问题

从上图可以看出,CL 需要两个输入:

左:置信计数示例,这是一个不正常的联合估计;右:有三类数据的数据集的噪声标签和真标签的联合分布示例

带噪标签与不带噪标签置信联合与估计联合分布的置信学习过程及实例,其中,y~ 表示观察到的噪声标签,y* 表示潜在的未损坏标签

使用置信学习,我们可以使用任何合适的模型在任何数据集中找到标签错误。下面是常见数据集中的其他三个实际示例。

稀疏性(Q 中零的分数)概括了这样一个概念,即现实世界中的数据集,如 ImageNet,有一些类不太可能被错误地标记为其他类,例如 p(tiger,oscilloscope) ~ 0 in Q。如上表中突出显示的单元格所示,与 Mixup、MentorNet、SCE-loss 和 Co-Teaching 等最新方法相比,CL 显著增强了对稀疏性的鲁棒性。这种鲁棒性来自于直接建模 Q,即噪声和真实标签的联合分布。

估计给定噪声标签和潜在(未知)未损坏标签的联合分布,以充分描述类条件标签噪声 查找并删除带有标签问题的噪音示例 去除训练误差,通过估计潜在先验重新加权实例

与大多数机器学习方法不同,置信学习不需要超参数。我们使用交叉验证从样本中获得预测概率。置信学习还有许多其他优点:

我们鼓励阅读论文原文来理解公式中的符号,这里的中心思想是,当一个例子的预测概率大于每个类的阈值时,我们自信地认为这个例子实际上属于该阈值的类。每个类的阈值是该类中示例的平均预测概率。这种阈值形式将 PU 学习中众所周知的鲁棒性结果(Elkan&Noto,2008)推广到多类弱监督。

雷锋网版权文章,。详情见转载须知。

各州市累计确诊病例:昆明市53例(治愈出院53例),昭通市25例(治愈出院25例),西双版纳州15例(治愈出院14例、死亡1例),玉溪市14例(治愈出院13例、死亡1例),曲靖市13例(治愈出院12例),大理州13例(治愈出院13例),保山市9例(治愈出院9例),红河州9例(治愈出院9例),丽江市7例(治愈出院7例),德宏州5例(治愈出院4例),普洱市4例(治愈出院4例),楚雄州4例(治愈出院4例),文山州2例(治愈出院2例),临沧市1例(治愈出院1例)。

CL 基于噪声数据剪枝的原理,通过计数对噪声进行评估,并对实例进行排序以进行置信训练。在这里,我们在 Angluin 和 Laird 分类噪声的假设基础上,将 CL 泛化到直接估计给定噪声标签和无噪声标签之间的联合分布。

云南省新型冠状病毒肺炎病例表

置信学习是如何工作的?

作为家长帮的核心产品之一,家长大学以“陪之以爱、教之以方、育之以则”为理念,其研发的课程内容涵盖3-18岁孩子所有核心教育问题,不同教育阶段的家长都可以在其中找到相应的教育问题解决方案。家长帮以“一起培养面向未来的孩子”为使命,不断升级产品、开放自身平台、集合行业资源、链接教育品牌,专注为家长打造专业、实用、前瞻、高效的全面教育服务平台。

描述标签噪声 查找标签错误 学习噪声标签 发现本体论问题

但任天堂将使用这些芯片制造64GB卡带的消息存在着疑点。据介绍,现在任天堂甚至不使用Macronix闪存作为Switch的内部存储。无论是哪个版本的Switch,使用的都是东芝THGBMHG8C2LBAIL 32 GB eMMC NAND闪存芯片。

置信学习(CL)已成为监督学习和弱监督的一个子领域,可以被用于:

出于弱监督的目的,CL 包括三个步骤:

云南省现有确诊病例分布图

本文由游民星空制作发布,未经允许禁止转载。

上表显示了 CIFAR-10 上带噪声标签的多类学习的 CL 与最新方法的比较。在高稀疏性(见下一段)和 40%、70% 的标签噪声的情况下,CL 的表现优于 Google 表现最好的 MentorNet、Co-Teaching 和 Facebook 研究院的 Mix-up,性能超过它们 30%。在使用置信学习之前,对这一基准的改进要小得多(大约只有几个百分点)。

从上图右侧的矩阵中,估计标签问题:

注意:虽然这简化了本文中使用的方法,但抓住了本质。

自3月3日开始,全省129个县市区均为低风险。

将联合分布矩阵乘以示例数。让我们假设我们的数据集中有 100 个示例。所以,在上图中(右边的 Q 矩阵),有 10 个标记为 dog 的图像实际上是狐狸的图像。 将 10 张标记为 dog 的图片标记为标签问题,其中属于 fox 类的可能性最大。 对矩阵中的所有非对角项重复此操作。

cleanlab 是一个带有标签错误的机器学习和深度学习框架,和 PyTorch 类似。在 cleanlab 文档中了解更多信息。

继续我们的示例,CL 统计 100 个标记为 dog 的图像,这些图像很可能属于 dog 类,如上图左侧的 C 矩阵所示。CL 还统计了 56 幅高概率标记为 fox 的图像和 32 幅高概率标记为 cow 的图像。

CL 通过直接估计标签噪声的联合分布,自动发现数据集中类的本体论问题。在上表中,我们显示了在我们估计单类数据集 ImageNet 的标签噪声联合分布时最大的偏离对角线。每行都列出了噪声标签、真标签、图像 id、计数和联合概率。因为这些是非对角的,所以噪声类和真类必须是不同的,但是在第 7 行中,我们看到 ImageNet 实际上有两个不同的类,它们都被称为 maillot。

此外,即使任天堂推出了64GB卡带,也很少有发行商或是开发者选择使用它们。因为成本过于昂贵,而许多游戏也并不需要用到64GB的大小。

在 Amazon 评论中存在的标签错误的例子,使用置信学习来识别不同的数据模式和模型