SAM是如何做到“分割一切”的(2)

时间：2023-04-17 17:54人气：来源：科技日报实

　　“虽然SAM并没有完全理解人类的语言和视觉的能力，但是通过对海量数据的学习，SAM仍然能够做到准确执行任务。”杨戈解释道，用于训练SAM的数据集的数据量，是以往最大数据集的6倍。在这个数据集中，包括1100万张图像，和11亿个标注（可简单理解为11亿个物体）。这是一个“走量”的过程，数据量越大，机器分割图像的能力就越准确；即使在某张图中出现了这11亿个物体之外的物体，机器也往往能够根据以往经验以较高的准确率“推断”出它是什么物体，并将其纳入自己的数据库，这就是为什么SAM对于从未见过的物体，也能有很好的识别与分割效果。

　　“需要注意的是，这11亿个标注也不是纯手工完成的，而是通过渐进的方式自动完成标注的。一开始，这个数据集中只有相对少量的标注数据。科研人员先用这些数据训练出一个模型，然后再让这个模型自动标注数据，并通过人工对标注结果进行改进，这就得到了比上一个数据集更大一些的数据集。如此循环往复，就能得到海量标注数据集。”杨戈补充道。

　　促进计算机视觉领域发展

　　功能如此强大的图像分割通用模型，将给计算机视觉领域带来哪些改变？

　　“我认为，SAM的出现将为计算机视觉领域的科研人员带来工作范式上的变化。”杨戈对笔者说道，“SAM的出现确实会对目前一些与机器人视觉相关的研究领域造成冲击，但从总体上看，SAM的出现会提升相关科研人员的效率。”

　　杨戈解释道，以往科研人员构建图像分割模型，是一个“从下到上、从零开始”的过程；而图像分割通用模型则将模型构建方式变成了“从上到下”，即在已有性能和泛化能力更强的模型基础上继续修改、优化，“这可能确实会取代某些专有模型，但从总体上看它将有利于整个领域的发展。”

　　此外，在具体应用上，图像分割通用模型前景十分广阔。

　　工业中的机器视觉、自动驾驶、安防等一些原来采用计算机视觉技术的行业，因为长尾场景多，需要大量标签数据，因此训练成本较高。有了图像分割通用模型后，这些领域内定制化开发产品的成本可能会降低，由此带来毛利率的提升；还有一些领域，过去因为样本量少而难以应用深度学习等人工智能算法。现在，由于SAM在零样本或者少量样本上表现优异，一些新的应用领域将被拓展，比如从代码驱动变为视觉驱动的机器人、流程工业场景等。

　　同时，由于SAM可以接受来自其他系统的输入提示，因此科幻片中根据用户视觉焦点信息来识别并选择对应物体或将成为可能。

　　SAM不仅将在上述这些前沿领域发挥作用，同样或将会用于人们的日常生活。“比如在医学影像诊断领域，SAM可能会催生出精度更高的医学影像模型，提升医疗水平；在拍照过程中，SAM的加入或将实现更快更智能的人脸识别。”杨戈说道。