resnet50结构图 resnet50详解

最新专区 2024-07-06 09:53:28

resnet18还是resnet50速度快

更关键的是,训练完成的Upstream-Amateur为后续的训练阶段提供了一个很高的起点。

resnet50速度快。resnet18没有resnet50速度快,ResNet是一种残网络,咱们可以把理解为一个子网络,这个子网络经过堆叠可以构成一个很深的网络。

resnet50结构图 resnet50详解resnet50结构图 resnet50详解


resnet50结构图 resnet50详解


商汤 科技 也许是估值的AI创业公司,以在推广智能摄像头而闻名。这些安防摄像头数量超过1.75亿,包括其他公司生产的摄像头。商汤 科技 在成立,最近一轮融资数额达6亿美元,由阿里巴巴领投。据,这家初创公司的价值目前为45亿美元。

2018年全球最值得关注的AI芯片初创公司

,通用视觉评测基准。

We Computing

此外,Graphcore支持片上互连和“处理器内存”(片上存储器)方法,可以得到超出TFlops基准所认可的性能。在一些神经网络中,如Generative Aersarial Networks,内存是瓶颈。

We Computing在2018取得了不少进展,推出其个DataFlow处理单元,收购MIPS,创建MIPS Open,并将首批系统交付给少数客户。虽然We架构有一些非常有趣的功能,但我们更期待用户的大规模真实体验反馈。

我不认为We能从某个点击败NVIDIA,但该架构的设计的非常好,该公司已经表示它很快就会有客户的反馈。

图1:We是从上面显示的4“DPU”构建的系统。We Computing

Graphcore是一家资金雄厚(融资3.1亿美元,目前估值为17亿美元)的英国独角兽创业公司,拥有全球化的团队。它正在构建一种新型的图形处理器架构,其内存与其逻辑单元位于同一芯片上,这应该能够实现更高的性能。该团队产品的发布时间暂不明确,不过他们去年四月表示“几乎准备好发布”了,12月的信息表明它将很快开始生产。

Graphcore的投资者名单令人印象深刻,包括红杉资本、宝马、微软、博世和戴尔 科技 。

我了解了该公司的架构,它非常令人印象深刻。从边缘设备扩展到用于数据中心的训练和推理的“Colossus”双芯片封装。在最近的NeurIPS活动中,Graphcore展示了其RackScale IPU Pod,它在一个32台的机架中提供超过16 petaflops的算力。虽然该公司经常声称它将提供比同类GPU强100倍的性能。

与往常一样,细节更能发现别,V100峰值性能仅在重构代码执行TensorCore的4x4矩阵乘法时才可用,这是Graphcore架构巧妙避免的限制。更不用说V100消耗了300瓦的电能和大量这一事实。

再次强调,我们将不得不等待真实的用户用实际应用程序来评估此体系结构。尽管如此,Graphcore的投资者名单、专家名单和台天价估值告诉我,这可能是一件好事。

图2:GraphCore展示了ImageNet数据集处理的照片。 可视化可帮助开发人员了解其训练处理占用处理周期的位置。

Habana Labs

Habana Labs是一家以色列创业公司,去年9月在次AI硬件峰会上宣布它已经准备好推出其用于推理的芯片,其创纪录的性能用于卷积神经网络图像处理。结果显示在Resnet50图像分类数据库中该处理器每秒分类15,000张图像,比NVIDIA的T4高出约50%,功耗仅为100瓦。

在2018年12月,Habana Labs的一轮融资由英特尔风险投资(In Venture Capital)领投,WRV Capital,Bessemer Venture Partners和Battery Ventures跟投,该公司的融资也由此前的4500万美元增加了7500万美元。

据悉,Habana Labs新的融资将部分用于流片其名为“Gaudi“的第二款芯片,该芯片将专注于训练市场,据称可扩展到1000多个处理器。

其它创业公司

我知道世界上有超过40家公司在为人工智能设计训练和推理芯片。我发现大多数公司都在进行简单的FMA(浮点乘法累加)和混合精度数学(整型8位和浮点16位和32位)。对此我不会感到惊讶,因为这种方法相对容易实现并且会获得一些成果,但它不会为像NVIDIA,英特尔以及少数初创公司做出不一样的架构提供持久的架构优势。

以下是一些引起我注意的公司:

AI芯片初创公司

一直试图找到一条摆脱美国半导体的方式,人工智能加速器可能会提供它一直在寻求的机会。设定了2030年要建立一个价值数万亿美元的人工智能产业的目标,自2012年以来,投资者已经向创业公司投入了超过40亿美元的资金。

寒武纪 科技 估值为25亿美元,是已经发布了第三代AI芯片的独角兽公司。寒武纪称它可以用更低的功耗提供比NVIDIA V100更好的AI性能,他们还销售其AI IP,搭载在华为麒麟970和麒麟980的处理器当中,作为AI加速硬件。

商汤 科技 与阿里巴巴、高通、本田甚至NVIDIA等主要公司建立了战略合作伙伴关系。该公司今天拥有一台超级计算机,运行大约8000块(可能是NVIDIA提供?)GPU,并再建造5台超级计算机来处理数百万个摄像头采集的面部识别数据。

雷锋网编译,via forbes

基于mxnet的resnet50模型转ONNX部署的问题记录

本文记录基于mxnet训练得到的resnet50模型在转为onnx格其次,通用视觉模型结构。式部署时发生的两个错误及解决办法

os: ubuntu 16.04

Mxnet : 1.6.0

onnx: 1.6.0

cuda: OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道,共同构筑开源体系OpenXLab,持续推进通用人工智能的技术突破和生态构建。10.2

cudnn: 8.0

通过netron.app 查看网络结构, 看到个batchnorm层(bn_data)的参数bn_data_gamma异常:

在onnx模型中手动修改bn_data层的gamma参数为1.0

resnet18和resnet50区别

这些开源技术,究竟有何魔力?

1、深度不同:ResNet18有18层,而ResNet50有50层,这意味着ResNet50比ResNet18具有更深的网络结构,可以捕捉更复杂的模式和特征。

resnet50中使用的batchnorm层在转换至onnx时报错不支持属性spatial

2、宽度不同:ResNet18和ResNet50在每一层中的滤波器数量不同,ResNet18的滤波器数量较少,而ResNet50的滤波器数量较多,具有更宽的网络结构,可以处理更多的特征和信息。

阅读笔记-Deep learning for person re-identification: A survey and outlook

mxnet源码mxnet/contrib/onnx/mx2onnx/_op_translation.py 359行 注释掉spatial参数

行人重识别任务的目标是希望在多个不具有重叠区域的摄像场景中实现行人的检索。目前行人重识别根据采用的组件不同可以分为closed-world和open-world两种。closed-world场景相对而言目前研究较深入,其主要针对于不同的应用设,在多个数据集上都取得较好的性能,比如Market1501,CUHK和DUKE等。 closed-world场景一般研究重点有三部分:深度特征表示学习、深度度量学习和rank优化。而open-world场景则相对更加复杂。本文总结了open-world场景中ReID的五个不同视角,提出了一种AGW基线方法,在多个ReID任务上都取得较好性能。另外,本文还提出了一种新的评估度量 mINP。探索了ReID目前亟待解决的一些方向。

基本定义: 非重叠的多个摄像场景中,特定行人的检索问题。具体而言,给定一个待检索的目标行人,ReID希望能够判断这个目标是否出现在不同时刻不同场景不同摄像头的场景中。

基本难点: 行人的视角、图像分辨率变化、光照变化、姿态变化、遮挡,不同模态等。

该综述的不同点:

根据上面五块内容,ReID任务分为closed-world和open-world两类,区别如下:

closed-world场景的一般前提:1)输入时裁剪后的行人图像块;2)有监督学习;3)检索目标一定存在gallery中。

closed-world场景模型一般包含3部分:特征抽取、度量学习和rank 优化。

如下图所示,一般包含四类:

ReID的难点包括视角不同,遮挡等,行人区域可能不对齐,这时往往希望通过部件或者区域特征进行对齐。主流趋势是combine全局特征和部件特征。以PDC模型为代表的e驱动方法,通过e获得部件信息,然后利用部件的attention进行检索。PCB方式是利用图像均匀划分的典型。其将目标框水平分成6个条带,每个条带进行的分类任务学习,在推理阶段将六条条带的特征进行concat表征整体。另外还通过refined part pooling策略增强了部件内部的一致性,具体是计算每个部件与所有像素点的相似度进行重新划分,可以认为是一种non-local的attention。

行人parsing技术能够获得较好的语义部件,提供更对齐的部件特征,但需要额外的e检测器且由于ReID数多级微调(MF)概述:VQ-模型首先在阶段使用上游数据进行训练,然后在第二阶段由它重构下游数据。在此之后,第三阶段只对新增任务的特定参数进行重新表示的图像训练,第四阶段则通过下游数据对整个模型进行微调。据集和Pose数据集的分布异,易产生错误的e。均匀划分的策略更灵活,但对遮挡和大的背景模糊无能为力。

辅助特征表示学习一般包括额外的标注数据,比如语义标注,和训练样本生成等。

该任务中,每个目标不再是图像区域,而是一段帧序列。

待续(ReID领域新接触,积累不够,综述文章读着好多理解不够深入,先去读具体方法了;( 后面积累了,再回来阅读这个吧。。。留坑)

将行人作为特定的行人检索问题,大多数方法都采用用于图像分类的网络结构作为backbone。其中一些方法通过修改backbone的结果以提取更好的ReID特征,比如对于ResNet50而言,一般将一个stage的stripe改为1以增大分辨率(参考文献PCB),或者一个pooling层采用自适应的平均池化(这里参考文献是PCB模型,池化时时不同的条带中进行gap),再或者在pooling层后添加具有bn的bottleneck 层(暂停,滚去阅读参考文献75, SVDNet了!(OK,已读完,见 ,和作者说的其实有出入,并不是加了bn,而是希望投影向量正交,从而获得的表观特征在每个维度上相互))。

其他的一些为ReID专门设计的网络结构有 FPNN(filter pairing neural network), 通过部件鉴别信息的挖掘同时处理不对齐和遮挡问题(暂停,去读参考文献34,DeepReID (已读, )),[141]提出一种提升邻域异的层用于捕捉patch特征的别,进而把这种异送入后面的层中(感觉类似resnet的思想。(读完, 其实就是提出一种结合了self-attention的part-aware module方法search space中,使用NAS迭代的搜索方法寻找针对于数据集的结构,当然说是专门为reid设计的网络结构也没毛病。))

计算机视觉迎新突破?谷歌AI模型打破现有s精度

知识点:

集微网消息,卷积神经网络(s),是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,非常适合于物体识别和人脸检测等任务,但要提高它们超过某一特定点的度,需要进行繁琐的微调。

这就是为什么谷歌人工智能研究部门的科学家们正在研究一种新的模型,这种模型以一种“更结构化”的方式“放大”s,他们在Arxiv上发表的一篇论文(EfficientNet: Rinking Model Scaling for Convolu深度不同、宽度不同。tional Neural Networks)和一篇附带的博客文章中对此进行了描述。

合著者声称,这一系列被称为“EfficientNet”的人工智能系统,以高达10倍的效率,超过了普通语料库的度。

“模型缩放的传统做法是任意增加的深度或宽度,或者使用更大的输入图像分辨率进行训练和评估,”软件工程师Mingxing Tan和谷歌人工智能首席科学家Quoc V. Le写道。“与传统的方法不同,传统方法是任意缩放网络尺寸,比如宽度、深度和分辨率,而我们的方法是用一组固定的缩放系数来均匀地缩放每个尺寸。”

所以,这该如何实现呢?首先,进行栅格搜索,以确定在固定资源约束下基线网络的不同缩放维度之间的关系(例如,浮点数计算量增加两倍或FLOPS)。这决定了每个维度适当的缩放系数,这些系数用于将基线网络缩放到所需的模型大小或计算预算。

为了进一步提高性能,研究人员提倡一种新的基线网络——mobile inverted bottleneck convolution (MBConv),它可以作为EfficientNets模型家族的种子。

在测试中,与现有的s相比,EfficientNets显示出更高的精度和更好的效率,减少了一个数量级的参数大小和故障。其中一个型号EfficientNet-B7比高性能的 Gpipe小8.4倍,快6.1倍,在ImageNet上分别达到了84.4%和97.1%的top-1和top-5精度。

与流行的ResNet-50相比,另一个型号EfficientNet-B4使用了类似的FLOPS,同时将top-1精度从ResNet-50的76.3%提高到了82.6%。

EfficientNets在其他数据集上也表现得很好,在8个数据集中有5个达到了的精度,包括CIFAR-100(.7%的精度)和Flowers(98.8%的精度),参数减少了21个。

谷歌的云托管张量处理单元(TPU)的源代码和培训脚本可以在GitHub上免费获得。Tan和Le写道:“通过对模型效率的显著改进,我们预计EfficientNets有望成为未来计算机视觉任务的新基础。”(校对/ICE)

resnet50效果不如resnet18

网络深度不同,kernel选择不一样。查询相关资料显示resne第二阶段,训练的是专业能力,被称为“专家模型”(Expert)。t50和resnet18二者网络深度不同,还有就是kernel的选择不一样,resnet50右侧的卷积核的We不是插入到的加速器,它是用于图形计算的处理器。这种方法有利有弊。从积极的方面看,We不会受到GPU等加速器面临的内存瓶颈影响。从消极方面来说,安装We设备将是新的升级,需要完全替换传统的X86,也让其成为所有制造商的竞争对手。排序是11 ,33,11,res18的kernrel 右侧的kernel 11,11。

只需要十分之一数据,就能通关四大视觉任务,居然还开源了

例如在花卉种类识别任务上,“书生“只需要每一类型的花卉提供两个训练样本,就能实现99.7%的准确率。

Github链接:

Graphcore表示,4“Colossus”GC2(8芯片)可提供500 TFlops(每秒数万亿次作)的混合精度性能。单个NVIDIA V100可提供125 TFlops,因此理论上4 个V100就可提供与其相同的性能。

家人们,你们有没有这种苦恼?

搬一次家就换一次家具,那些又贵又重的家具既不好搬运,又不好全部带走。

下一次又重新购置一遍家具,浪费钱不说,关键是来来都做一样的事情!家具还没用过几次,利用率不高呀!

这种搬家的苦恼,就好比AI领域,做几个任务就需要开发几个高度定制的模型,不仅所需的数据采集量非常大,每次还都得从头标注。既提不起数据的学习效率,又耗费巨大的数据获取成本。

光是AI前端研究就耗费如此巨大的精力,更别提应用场景中数以万计的长尾任务。

那怎么办?

做一款通用的深度学习模型,才是关键。

1 通用,才是技术根本

目前,通用语言模型(GLM)已经取得了令人瞩目的进展,比如BERT、T5和GPT-3,它们在应对广泛的语言下游任务时已经游刃有余。

相形之下,通用视觉模型(GVM)的研究迟迟未交出一份令人满意的答卷。

以往的大多数 GVM 研究主要利用一种监督信号来源,如 ViT-G/14 采用有标签监督,SEER 采用样本的不同增强之间的对比学习,CLIP采用文本对进行监督。如果是在单个监督信号下进行的预训练,这几种范式确实能够生成在固定场景下表现良好的模型。但如果用在场景多元、任务多样的下游场景,这些模型就难以胜任了。

比如现在最火的自动驾驶, 汽车 处于移动状态,既要看到路况,又要看到红绿灯,还要注意行人,甚至在智能座舱兴起后,还要和语言技术、LBS场景服务协同,这么多的感知数据与协同任务,这么多随机的新任务,无论在体量还是维度方面,都对视觉模型的要求极大提高。

这时,打造一款通用视觉模型,降低研发门槛,尤其是学术界的时间成本、资金成本,才能畅享下游的场景体验。

去年11月,上海人工智能实验室联合商汤 科技 、中文大学、上海交通大学发布通用视觉技术体系“书生”(INTERN),一套持续学习框架,用于系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。

前不久,上海人工智能实验室联合商汤 科技 发布通用视觉开源平台OpenGVLab,面向学术界和产业界开放其超高效预训练模型、超大规模公开数据集,以及业内针对通用视觉模型的评测基准。

2 大力出奇迹,打造通用视觉模型

“书生” (INTERN),就是练就通用视觉能力的底层技术。

从技术实现上讲,“书生”技术体系由由七大模块组成,包括三个基础设施模块和四个训练阶段构成。

书生(INTERN)结构图

首先,通用视觉数据系统。

这是一个超大规模的精标数据集,拥有100亿个样本和各种监督信号,并依照四大视觉任务分别设置了四个数据子集:多模态数据GV-D- 10B分类标注的GV-Dc-36M、检测标注的GV-Dd-3M、分割标注的GV-Ds-143K。

另外,这一数据集还包含11.9万的标签系统,不仅涵盖了自然界的众多领域和目前计算机视觉研究中的几乎所有标签,还扩充了大量细粒度标签,涵盖各类图像中的属性、状态等。

而这,就是书生“大力出奇迹”的一大注脚。

它是由一个具有和Transformer的统一搜索空间构建而成。

为何要建立这样的混合结构?要知道,多年来,卷积神经网络()一直主导着视觉表征学习,并在图像分类、目标检测和语义分割等下游任务中表现出稳定的可迁移性。但最近几年,Vision Transformer (ViT)仅使用普通的Transformer结构就能作为图像编码模型在ImageNet-1k上取得媲美 的性能,在大规模数据集上 ViT 更是展示出比 更大的潜力。

尽管ViT在性能上有优点,但纯Transformer网络相比卷积神经网络缺乏某些归纳偏置(inductive biases),因此需要更多的数据和计算资源。此外,自注意的计算成本相对于输入的数量是平方的,限制了对高输入分辨率的应用。因此,将和Transformer和MLP结合起来,平衡效率和有效性两个方面,才是模型通用的关键。

这种兼具更好的泛化能力和更高的模型容量的模型结构名为MetaNet。在MetaNet网络结构族里面进行网络结构搜索,从而得到的一个模型训练结构。

统一搜索的MetaNet架构:Conv和Trans分别表示卷积和Transformer。C和S为每一阶输出通道数和步幅。

具体来看,MetaNet不仅基于强化学习 的PPO算法提出了统一搜索架构,并且,为了避免传统的下采样模块会成为模型性能的瓶颈,“书生“结合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-aware down-sampling modules (DSM),用来代替原本的下采样模块。

因此,在浅层,模型依然使用卷积来提取特征,但在深层,模型却能将Transformer模块和LG-DSM结合使用,以便于更好地提取全局信息。

同时,书生还基于的MetaNet-B15蒸馏出了多达13种不同的模型结构,共24种不同的模型权重,现已全部开源。

这些模型结构基本涵盖了现有市面上大部分的主流backbone,不仅能够很轻易地迁移到所需要的算法框架作为新网络预训练的初始化,而且只需要更短的训练时间就可以达到比原来更好的训练效果。

基于卷积、Transformer和两者混合的结构,分别用C,T和H表示,可以看出,在图像分类性能上,MetaNet系列的MN-B1,MN-B4和MN-B7,和其他的SOTA模型相比,不更高的精度,还有更低的FLOPS和参数量。

除了分类任务,把MetaNet做为检测和分割的backbone,在COCO数据集上使用Mask R-结构训练,结果发现:在模型参数量更小的前提下,MN-B4比Swin-T精度高出2到4个点。另外还在ADE20K数据集上进行了语义分割任务,MN-B4的mIoU指标比Swin-T高出5个点之多。

上述两个实验结果表明,MetaNet系列模型结构,在模型精度与计算量之间,都达到了新的SOTA!

视觉评测基准GV-B ,就像是一个「擂台」。

如下表所示,测评基准收集了 26 个下游任务数据集,囊括了 4 种视觉任务类型:分类,检测,分割和深度估计。

在设置上,该基准引入了百分比样本(percentage-shot),只需要选取整个数据集的一部分,例如 10%、20% ,对比缩小下游任务的训练数据量后的模型性能。

与传统的少样本设置相比,这种百分比样本设置可以很好地保留原始数据集的长尾分布等属性,并减轻对样本选择的敏感性。因为有一些数据集样本类别分布不平衡,比如下表中的VOC07+12,百分比数据的划分方式却会继承这种分布情况。

右侧三列g,min和max,分别表示在10%的数据中,不同类别样本数量的平均值,最小值和值。

结合上述数据集和任务类型,论文选取了一些具有代表性的模型来做评测对比。为了比较公平性,该对比使用了这些模型的预训练权重。这些模型包括:

有了超大精标数据集、模型结构,以及评测基准后,已经是万事俱备,只欠训练。

书生作为古代读书人的经典形象,代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色:从基础的知识技能学习开始,到对多种专业知识触类旁通,进而成长为拥有通用知识的通才。借此意象,“书生”(INTERN)系统可通过持续学习,举一反三,逐步实现通用视觉领域的融会贯通,最终实现灵活高效的模型部署。

下面就来看看,这套系统是如何通过训练,一步步从生手变成专家再到多面手,最终在各种任务中大显身手。

阶段,训练的是基础能力,被称为“基础模型”(Amateur)。

然而CLIP需要400M的图像-文本对进行前训练,囿于极大的数据量,CLIP很难进一步发展。但“书生”提出了一种新的训练范式,DeCLIP(Data efficient CLIP ),能够同时使用来自图像-文本、图像-图像和文本-文本对的监督信号进行模型预训练,从而更有效地实现通用性。

此外,为了充分利用大规模多模态数据获取基础模型的优势,这一阶段提出了Upstream-Amateur (Up-A)视觉语言预训练框架,同时挖掘模态内和跨模态知识。

这一训练框架分为两个预训练阶段:Upstream-Amateur for Global Representation (Up-A-G)和Upstream-Amateur for Local Representation (Up-A-L)。

其中,Up-A-G(左)使用群体监督功能,从更丰富的监督中学习。Up-A-L(右)采用局部自我监督学习方法,对训练好的视觉-语言模型进行调整,从而提高自身在密集预测CV任务中的表现。

Upstream-Amateur的框架

得益于这些内在的监督,DeCLIP-ResNet50可以在ImageNet上实现60.4%的zero-shot 精度。这比CLIP-ResNet50高出0.8%,数据使用量少了81%。当迁移到下游任务时,DeCLIP-ResNet50在11个视觉数据集中有8个优于CLIP。

Up-A阶段得到的基础模型,在一般的视觉识别问题上显示出优异的性能。但要完全掌握检测、分割等更具体的任务,还需要在每个任务中进行更专业的预训练,这就促成了第二个阶段的到来,专家模型。

对于每个专家,“书生”采用了一种简单的多头设计,每个头是一个特定数据集的子网络,从一个公共的、共享的“主干”分支出来。比如Up-E (C)、Up-E (D)和Up-E (S),分别用于图像分类、对象检测和语义分割。

第三阶段,训练的是组合能力,被称为“通才模型”(Generalist)。

上述的多任务是指不同数据集(如ImageNet和CIFAR)的一个视觉问题(如分类),或一个数据集的多个视觉问题(如分类和检测)。但关键是,如何将专家整合到一个统一的模型中,获得一个更加通用的视觉模型。因此,在预训练“专家”阶段之后,又将“通才”作为第三个预训练阶段,以进一步统一特征表示。

“书生”提出了一个新的范式,名为“混合参数共享”,从而开发一个名为“多面手”的通才模型。

具体来说,由于专家捕获的知识是相互关联的,当专家的特征融合为一个共享的表示形式时,再利用基于软共享的跨任务知识转移和基于硬共享的通用表示学习的方法,在不引入任务冲突的情况下在专家之间传递信息(特征转移),从而进一步提高了多任务训练的模型(专家)性能,即“通才”能力。

在结构上,通才模型是所有专家的一个相互关联的版本,因此可以把每个“专家主干”称为“通才分支”。此外,我们还可以根据训练相应专家的任务将通才中的每个分支分为图像、补丁和像素。但无论是软共享还是硬共享,都意味着从专家模型到通才模型的一次跃升。

在经历了前三个训练阶段模块后,终于来到的任务迁移阶段 (Adaptation)。

这个阶段属于技术链条的下游,用来解决各式各样不同类型的任务,而这也是最考验“书生”举一反三能力的时刻。它需要在这个阶段把之前学到的通用知识,融会贯通地应用到不同特定任务中。

在此之前,很多迁移学习方法确实取得了很多进步,但问题是,这些方法既没有利用上游预训练中的隐含信息,也没有考虑到下游数据在少镜头场景中的不足。

因此,“书生”提出了一种Multi-stage Fine-tuning (MF)方法,缓解在数据较少的情况下传输的困难,再通过将上游数据编码成生成模型,即VQ-,可以将预训练的模型转移到多个任务和领域,而无需每次都使用上游数据,而这也使得“书生”更具通用性和可扩展性。

至此,一个具有持续学习能力的通用视觉模型终于出世。

而具体有哪些提升,不如看一下更直观的实验数据对比!

3 一网打尽视觉领域四大任务

视觉领域,任务繁多,主流任务包含分类、目标检测、语义分割、深度估计四大类型。

在这四大任务中,最强大的视觉模型还是去年OpenAI发布的CLIP模型。但相比较而言,“书生”则在准确率和数据使用效率上都有所提升。

1、精度表现

通过对“书生”训练出的模型在GV-B上的评测对比,发现经过多阶段预训练的MetaNet精度表现优异。

在ImageNet等26个代表性的下游场景中, “书生”在分类、目标检测、语义分割及深度估计等四大任务上,平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。

书生(INTERN)与CLIP-R50x16在不同样本量上的性能对比,正确率展示

2、数据使用效率

“书生”在数据效率方面的提升尤为瞩目:只需要1/10的下游数据,就能超过CLIP基于完整下游数据训练的准确度。

以CLIP-R50x16和Up-G MN-B15在GV-B的评测对比为例,分别在分类、目标检测、语义分割、深度估计四大类型的26个下游任务数据集上进行了评测,仅使用了10%数据进行训练的Up-G MN-B15模型,在绝大部分数据集上都能比使用了全部训练数据的CLIP-R50有更好的精度表现。这表明,经过多阶段预训练的MetaNet具有极强的泛化能力,能够在少量的训练样本情况下,达到SOTA的精度表现。

在下游视觉场景中,小样本训练带来的是极高的训练速度,以及极低的训练成本。

这个花卉数据集由102种英国常见的花组成,每个类别有40至258张。其中包含有很大的比例、姿势和光线变化。

102个类别的花卉数据集:

4 通用视觉平台,已正式开源

如此强大的通用视觉训练模型已经正式开源!

更关键的是,连同上述讲到的标签数据集、网络结构以及评测基准,均在OpenGVLab被统一打包开源。

其中的网络结构除了MetaNet,还包含大家普遍使用的ResNet, MobileNet, ViT, EfficientNet等,以满足不同场景的应用,赋能计算机视觉。

然而,「书生」的布局不止于此。

一位已经使用过此次开源平台的自动驾驶算法研究员表示:“书生系列模型充分覆盖了从移动可部署的小模型,到超大规模自研结构,为行业带来了希望,尤其是它的收敛速度,大幅节省了训练开销,是技术落地的一大助推器。“

不仅是自动驾驶领域,智慧城市、智慧医疗、智慧交通,以及千千万万其他的智能化领域,都将获得通用视觉模型带来的技术红利。

一位腾讯研究员大赞OpenGVLab:“能把这么大的工作开源出来真的是业界良心。简单用了一下,确实比CLIP要更fine-grained(细粒度更高)。”

而来自学界的师生也对此感慨有加:“OpenGVLab集成了大量各种量级的state-of-the-art(先进)模型,使用起来更得心应手,省去了对不同codebase、不同模型繁琐调研的烦恼。”

换句话说,当那些代码和公式脱去了枯燥乏味的外衣,人们才发现了真正的创造力。而这,也是技术创新与平台开源的魅力所在。

往近了说,用这款通用视觉模型打比赛,怕不是奖金多到飞起!在技术生产力的道路上,又诞生了一个致富小妙招!

目前,“书生”技术报告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平台发布。

论文地址:

Mask R 模型

MetaNet 模型与其他模型结构比较,结果如下Graphcore:

Faster R使用提取图像特征,然后使用region proal network(RPN)去提取出ROI [ROI(region of interest),感兴趣区域。],然后使用ROI pooling将这些ROI全部变成固定尺寸,再喂给全连接层进行Bounding box回归和分类预测。

版权声明:本文内容由互联。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发 a13828211729@163.com 邮箱删除。