新闻中心news center
用全卷积网络做 但现在,你能够试试 英特尔最近用它搞了一个密布猜测模yobo体育网页版型,成果是比较全卷积,该模型在单目深度估量运用使命上, 其间,它的成果更具 在语义切割使命上,该模型更是在ADE20K数据集上 这次,Transformer又在CV界秀了一波操作。 此模型名叫 总的来说,DPT沿用了在卷积网络中常用的编码器-解码器结构,主要是在编码器的根底核算构建块用了transformer。 它经过运用ViT为骨干,将ViT供给的词包(bag-of-words)从头组合成不同分辨率的图画特征表明,然后运用卷积解码器将该表明逐渐组合到终究的密布猜测成果。 模型架构图如下: 具体来说便是先将输入图片转换为tokens(上图橙色块部分),有两种办法: (1)经过打开图画表征的线性投影提取非堆叠的图画块(由此发生的模型为DPT-Base与DPT-Large); (2)或许直接经过ResNet-50的特征提取器来搞定(由此发生的模型为DPT-Hybrid)。 然后在得到的token中增加方位embedding,以及与图画块独立的读出token(上图赤色块部分)。 接着将这些token经过transformer进行处理。 再接着将每个阶段经过transformer得到的token从头组合成多种分辨率的图画表明(绿色部分)。留意,此刻还仅仅类图画(image-like)。 下图为重组进程,token被组装成具有输入图画空间分辨率1/s的特征图。 终究,经过交融模块(紫色)将这些图画表明逐渐“拼接”并经过上采样,生成咱们终究想要的密布猜测成果。 ps.该模块运用残差卷积单元yobo体育网页版组合特征,对特征图进行上采样。 以上便是DPT的大致生成进程, 此外,它在每阶段都有一个大局感触野。 不同对密布猜测yobo体育网页版使命特别有利,让DPT模型的成果更具细粒度和大局一致性。 用两种使命来查验作用 研究人员将DPT运用于两种密布猜测使命。 因为transformer只要在大练习集上才干展现其悉数潜能,因而 他们将DPT与该使命上的SOTA模型进行比照,选用的数据集包括约140万张图画,是迄今为止最大的单目深度估量练习集。 成果是,两种DPT变体的功能均明显优于最新模型(以上目标越低越好)。 其间,与SOTA架构MiDaS比较, 为了yobo体育网页版保证该成果不仅是因为扩展了练习集,研究人员也在更大的数据集上从头练习了MiDaS,成果依然是DPT胜出。 经过视觉比较图还能够看出,DPT能够更好地重建细节,能够在对卷积结构具有应战的区域(比方较大的均匀区域)中进步大局一致性。 别的,经过微调,研究人员发现DPT也能够有效地运用于较小的数据集。 在具有竞争力的 成果发现,DPT-Hybrid优于现有的一切全卷积结构,以49.02的mIoU达到了SOTA(其更明晰、更细粒度的鸿沟作用如最初所展现)。 而DPT-Large的功能稍差,研究人员剖析或许是因为与之前的试验比较,选用的数据集要小得多。 一起,他们在小数据集(Pascal)上对体现优异的DPT-Hybrid微调了50个epoch后发现,DPT的功能依然强壮。 终究,“百闻不如一见”,假如你想体会DPT的实在作用,能够到Huggingface官网。 论文地址: 模型地址: Hugging Face体会地址: https://huggingface.co/spaces/akhaliq/DPT-Large