免费试用 023-63080977
新闻中心

新闻中心news center

【yobo体育网页版】英特尔用ViT做密集预测效果超越卷积,性能提高28%,mIoU直达SOTA


用全卷积网络做

但现在,你能够试试

英特尔最近用它搞了一个密布猜测模yobo体育网页版型,成果是比较全卷积,该模型在单目深度估量运用使命上,

其间,它的成果更具

在语义切割使命上,该模型更是在ADE20K数据集上

这次,Transformer又在CV界秀了一波操作。

此模型名叫

总的来说,DPT沿用了在卷积网络中常用的编码器-解码器结构,主要是在编码器的根底核算构建块用了transformer。

它经过运用ViT为骨干,将ViT供给的词包(bag-of-words)从头组合成不同分辨率的图画特征表明,然后运用卷积解码器将该表明逐渐组合到终究的密布猜测成果。

模型架构图如下:

具体来说便是先将输入图片转换为tokens(上图橙色块部分),有两种办法:

(1)经过打开图画表征的线性投影提取非堆叠的图画块(由此发生的模型为DPT-Base与DPT-Large);

(2)或许直接经过ResNet-50的特征提取器来搞定(由此发生的模型为DPT-Hybrid)。

然后在得到的token中增加方位embedding,以及与图画块独立的读出token(上图赤色块部分)。

接着将这些token经过transformer进行处理。

再接着将每个阶段经过transformer得到的token从头组合成多种分辨率的图画表明(绿色部分)。留意,此刻还仅仅类图画(image-like)。

下图为重组进程,token被组装成具有输入图画空间分辨率1/s的特征图。

终究,经过交融模块(紫色)将这些图画表明逐渐“拼接”并经过上采样,生成咱们终究想要的密布猜测成果。

ps.该模块运用残差卷积单元yobo体育网页版组合特征,对特征图进行上采样。

以上便是DPT的大致生成进程,

此外,它在每阶段都有一个大局感触野。

不同对密布猜测yobo体育网页版使命特别有利,让DPT模型的成果更具细粒度和大局一致性。

用两种使命来查验作用

研究人员将DPT运用于两种密布猜测使命。

因为transformer只要在大练习集上才干展现其悉数潜能,因而

他们将DPT与该使命上的SOTA模型进行比照,选用的数据集包括约140万张图画,是迄今为止最大的单目深度估量练习集。

成果是,两种DPT变体的功能均明显优于最新模型(以上目标越低越好)。

其间,与SOTA架构MiDaS比较,

为了yobo体育网页版保证该成果不仅是因为扩展了练习集,研究人员也在更大的数据集上从头练习了MiDaS,成果依然是DPT胜出。

经过视觉比较图还能够看出,DPT能够更好地重建细节,能够在对卷积结构具有应战的区域(比方较大的均匀区域)中进步大局一致性。

别的,经过微调,研究人员发现DPT也能够有效地运用于较小的数据集。

在具有竞争力的

成果发现,DPT-Hybrid优于现有的一切全卷积结构,以49.02的mIoU达到了SOTA(其更明晰、更细粒度的鸿沟作用如最初所展现)。

而DPT-Large的功能稍差,研究人员剖析或许是因为与之前的试验比较,选用的数据集要小得多。

一起,他们在小数据集(Pascal)上对体现优异的DPT-Hybrid微调了50个epoch后发现,DPT的功能依然强壮。

终究,“百闻不如一见”,假如你想体会DPT的实在作用,能够到Huggingface官网。

论文地址:

模型地址:

Hugging Face体会地址:

https://huggingface.co/spaces/akhaliq/DPT-Large



上一条: yobo体育网页版_0-2!口水战+冲突!5连冠梦碎后曼城又创31年耻辱!

下一条: yobo体育网页版:乒超-梁靖崑克樊振东 林高远打出11比0难挽败局