给1万帧视频做目标分割，显存占用还不到1.4GB，代码已开源ECCV20-经济导报网

咦，好好的藤原百花怎么突然变成了大红版。

这只紫色的大手，是活着的灭霸吗。一端有带圈可握的短马鞭

如果你以为以上效果只是后期给物体上色，那你就真的被AI骗了这些奇怪的颜色实际上代表了视频对象的分割但是有一点，这个效果真的是一时半会儿分辨不出来

无论是萌妹的飞发:

或者在毛巾和已经改变形状的物体之间来回移动:

AI目标的分割可以说是完美契合，仿佛颜色焊接在一起该方法不仅能高精度分割目标，还能处理超过1万帧的视频而且分段效果始终处于同一水平，视频后半段依然丝滑细腻

更令人惊讶的是，这种方法对GPU的要求很低研究人员表示，在实验过程中，这种方法消耗的GPU内存从未超过1.4GB，要知道，目前类似的基于注意力机制的方法，在普通消费级显卡上甚至无法处理时长超过1分钟的视频

这就是XMem，伊利诺伊大学香槟分校的学者最近提出的一种长视频目标分割方法目前已被ECCV 2022接收，代码开源如此丝滑的效果也吸引了众多网友在Reddit上观看，热度达到800+

网友们开玩笑说:

你为什么把你的手涂成紫色。

谁知道灭霸是否对计算机视觉有兴趣。

模仿人类记忆

目前，已有的视频对象分割方法很多，但要么处理速度慢，对GPU要求高，要么准确率低。

本文提出的方法可以说是兼顾了以上三个方面不仅可以快速分割长视频，帧数也可以达到20FPS，而且在普通的GPU上就可以完成

1968年，心理学家阿特金森和希弗林提出了多重存储模型根据这个模型，人的记忆可以分为三种模式:瞬时记忆，短时记忆和长时记忆

参考上述模型，研究人员还将AI框架分为三种记忆模式。它们是:

及时更新的瞬时记忆

高分辨率工作记忆

长期记忆。

其中，瞬时内存会每帧更新一次，记录画面中的图像信息当工作记忆饱和时，它会被压缩并转移到长时记忆中

当长时记忆饱和后，过时的特征就会伴随着时间被遗忘一般来说，这在处理了几千帧之后就会饱和这样一来，GPU内存就不会因为时间的推移而不足了

一般情况下，视频目标的分割会给出第一帧的图像和目标掩膜，然后模型会跟踪相关的目标，并为后续帧生成相应的掩膜。具体来说，XMem按如下方式处理单个帧:

整个AI框架由三个端到端的卷积网络组成。

查询编码器用于跟踪和提取查询的特定图像特征。

解码器负责获得存储器读取步骤的输出，以生成对象掩码。

值编码器可以组合图像的掩模和目标来提取新的记忆特征值。

最终值编码器提取的特征值将被添加到工作存储器中。

从实验结果来看，该方法在短视频和长视频中都实现了SOTA。

在处理长视频时，XMem的性能并不会伴随着帧数的增加而下降。

研究团队

他毕业于香港科技大学，目前在伊利诺伊大学香槟分校攻读博士学位研究方向是计算机视觉他已经收到了CVPR，NeurIPS，ECCV和其他顶级会议的几篇论文

他现在是伊利诺伊大学香槟分校的助理教授他毕业于苏黎世联邦理工学院，获得博士学位他的研究兴趣是机器学习和计算机视觉

论文地址:

GitHub:

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

给1万帧视频做目标分割，显存占用还不到1.4GB，代码已开源ECCV20