深度学习中的关键:负样本数据库(负样本数据库)

深度学习是近年来领域的热门技术之一。在传统机器学习中,我们需要将数据集进行特征提取并进行标记,再通过训练算法来得到一个分类器或回归器。这种方法的缺点是需要人工处理大量的数据,并且存在过拟合的问题。而深度学习则可以直接对输入的原始数据进行学习,无需手工特征提取。但是,深度学习的关键在于负样本数据库的构建和管理。

创新互联公司-专业网站定制、快速模板网站建设、高性价比洞头网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式洞头网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖洞头地区。费用合理售后完善,10多年实体公司更值得信赖。

负样本是指不属于我们所需要分类的目标的样本。在深度学习中,我们需要使用大量的负样本来减少模型的偏差和提高模型的泛化能力。通常情况下,我们会从大量的未标记数据中随机采集一部分样本作为负样本。但这种随机采集的方法存在一定的问题,可能导致采样中出现偏差,影响模型的训练效果。

为了解决这个问题,我们需要构建一个负样本数据库。这个数据库需要包含大量的代表性的负样本,以提高模型的泛化能力。同时,对于不同的任务,我们需要不同的负样本数据库。比如,在人脸识别任务中,我们需要一个包含大量非人脸图像的数据库。

构建一个负样本数据库需要一定的努力和时间。一种方法是通过人工筛选和标记。但这种方法过于耗费人力物力,且耗时长,不适用于大规模深度学习任务。因此,我们需要探索更高效的方法。

一种可行的方法是使用爬虫技术从互联网上收集大量的未标记数据,并使用一些已有的分类器来过滤掉属于我们所需要分类的目标数据。这种方法比较高效,但也存在一定的问题。比如,爬取到的数据可能存在版权问题,涉及隐私等问题。因此,我们在爬虫时需要注意合法性问题。

另一个问题是数据库的管理。一个负样本数据库通常包含大量的数据,这些数据需要按照一定的规则进行分类和管理,以方便后续的训练和调用。比如,我们需要将不同类型的负样本分别存放在不同的文件夹中,并按照一定的方式进行命名。这样可以提高数据的识别和管理效率。

负样本数据库的构建和管理涉及到许多技术和方法。同时,我们也需要关注一些伦理和法律问题。但这一步工作的重要性不能被忽略。只有构建了一个代表性的负样本数据库,我们才能保证深度学习模型的稳定性和泛化能力,实现更加准确和有效的数据分类和识别。

相关问题拓展阅读:

  • 使用libsvm 进行一对多的留一法预测,出现对正样本预测全为负的问题
  • 【CV论文笔记】Focal Loss for Dense Object Detection(Focal Loss 理解)

使用libsvm 进行一对多的留一法预测,出现对正样本预测全为负的问题

对于重新描述的问题: 看敬胡样磨拆子lz在做数模比赛之类的东西。

我想说的是,对于序列数据,如果仅从序瞎稿枣列本身,只利用前N天去预测后一天的情况(注意是“只”),这个问题几乎是不可解的,即建模p(x_t)=f(x_{t-1},,x_{t-N}). 没有实际生活中的什么序。

【CV论文笔记】Focal Loss for Dense Object Detection(Focal Loss 理解)

本文主要用于介绍各路大神(包括rbg, kaiming he等)于2023年提出的适用于目标领域的一种新的损失函数。本笔记主要为方便初学者快速入门,以及自我回顾。

论文链接:

github主页:

rbg大神个人主页:

基本目录如下:

—–之一菇 – 摘要—-

目前最准确的目标检测模型就是以两阶段的R-CNN系列为代表的。相比之下,单阶段的目标检测模型虽然在准确率上依然落后于两阶段的模型,但是其简易和速度快的特性毫无疑问具有巨大的潜力。在这篇文章中,我们就深入调研为什么单阶段的模型其准确率会不甚理想。在调研过程中,我们发现最主要的一个问题就是在训练过程中的正负样本(背景和真实目标)不均匀。因此,我们设计了一个新的损失函数,来减少那些易于分类的样本带来的损失。我们新的Focal Loss损失函数重点关注那些难于被训练的(hard examples),并且尽量避免被那些负样本所带偏。为了验证我们模型的有效性,我们还重新设计了一个新的检测器,命名为RetinaNet,我们的实验表明,运用了新的损失函数以后,我们的RetinaNet在速度上已经能够媲美那些单阶段模型,同时在准确率上能够压制现存所有的两阶段模型(存疑)。

—–第二菇 – 核心思想—-

既然本文把单阶段的模型不如多阶段的主要归因于正负样本不均衡这件事情,那我们就直接列出原文的观点。作者认为,正负样本不均衡将会导致,

1)training is inefficient as most locations are easy negatives that contribute no useful learning signal

2)en masse, the easy negatives can overwhelm training and lead to degenerate models

还是拿目标检测的场景来理解,单阶段的目标检测器通常会在之一阶段产生高达100k的候选目标,其中只有极少数是正样本,因此该场景就是一个典型的正负样本不平衡的问题(如下图所示),然后,正样本和负样本又都各自有难易之分,即有些正样本很容易区分,有些又很难区分,因此,正负样本又可以分为如下四类,

(注:如果有不明白的,结合具体的网上盗的一张示意图明白了【1】)

弄清楚了数据分布以后,我们再来看损失函数。我们最常用山哪的在计算分类的时候常用的损失就是交叉熵损失(以二分类为例),

其中 就是模型输出的概率(y=1),为了方便表述,通常定义,

此时,

然逗薯码后,为了解决正负样本不平衡的问题,很自然的我们都会添加一个 ,该参数通常取决于正负样本的比例,

当然, 只是平衡了正负样本对于最终损失的贡献度,但对难易不平衡的事情完全没有帮助。事实上,如上述第二条理由所述,在目标检测的任务中,存在着大量的易分样本,虽然单个来看每一个易分样本(置信度很高的样本)带来的损失很低,但是如果总的易分样本数量过多的话,积少成多,也会引领总的损失走向错误的方向。因此,本文作者也认为,模型应该重点关注那些难分的样本(hard examples),于是据此理论就提出了一个新的损失计算方法,

大家仔细研究一下这个公式就会发现,

1)当样本被错分的时候,通常 是会比较小的,因此我们新加的权值项 也是接近于1的,意思就是该项损失应该都有贡献;

2)而当样本是正确分类的时候, 就会相对比较大,权值项也就对应变小了,意思就是该项损失的贡献是很少的;

因此,最终的Facal Loss就是结合手茄了上述的2个点提出的,

这里也贴一张原论文中的图,作者发现 的时候效果更佳~

其实整一套网络架构,跟RPN网络是比较像的,这里直接贴一张原论文中的网络架构图,

这里简单提几个关键的变化点,

1)其基础提取图片特征的模型采用的是ResNet,并且结合了FPN网络,用以构建不同层级对应的特征图,因此其基本的架构(backbone)就是ResNet + FPN的组合。

2)对应每一层级提出的特征,都会输入到2个结构一摸一样的子网络中(subnetworks),分别用于分类和回归!俩个子网络的架构是一样的,但是参数是不一样的(sharing a common structure, use separate parameters)。

3)Anchors的设计机制跟RPN中的是相似的,只不过对应到FPN中,每一层级特征图对应的Anchor大小是不一样的。每一个层级对应设置的Anchor比例为 ,每一种比例对应3种大小尺度 ,因此总的anchors数为9。

这里贴一张具体的实验结果图,方便以后查看(具体实验过程不再阐述),

当然作者本文的结论肯定就是,证明了这种Focal Loss设计的有效性了~

—–第三菇 – 总结—-

到这里,整篇论文的核心思想已经说清楚了。本论文主要是提出了一个新的对于样本不均衡问题的损失函数的设计方法,并实验证明其可行性,为后续发展奠定了基础。

简单总结一下本文就是先罗列了一下该论文的摘要,再具体介绍了一下本文作者的思路,也简单表述了一下,自己对Focal Loss的理解。希望大家读完本文后能进一步加深对该论文的理解。有说的不对的地方也请大家指出,多多交流,大家一起进步~?

参考文献:

负样本数据库的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于负样本数据库,深度学习中的关键:负样本数据库,使用libsvm 进行一对多的留一法预测,出现对正样本预测全为负的问题,【CV论文笔记】Focal Loss for Dense Object Detection(Focal Loss 理解)的信息别忘了在本站进行查找喔。

香港服务器选创新互联,2H2G首月10元开通。
创新互联(www.cdcxhl.com)互联网服务提供商,拥有超过10年的服务器租用、服务器托管、云服务器、虚拟主机、网站系统开发经验。专业提供云主机、虚拟主机、域名注册、VPS主机、云服务器、香港云服务器、免备案服务器等。

名称栏目:深度学习中的关键:负样本数据库(负样本数据库)
当前地址:http://www.csdahua.cn/qtweb/news13/94463.html

网站建设、网络推广公司-快上网,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 快上网