SAM是如何做到“分割一切”的(2)

时间:2023-04-17人气:加载中...

  “虽然SAM并没有完全理解人类的语言和视觉的能力,但是通过对海量数据的学,SAM仍然能够做到准确执行任务。”杨戈解释道,用于训练SAM的数据集的数据量,是以往最大数据集的6倍。在这个数据集中,包括1100万张图像,和11亿个标注(可简单理解为11亿个物体)。这是一个“走量”的过程,数据量越大,机器分割图像的能力就越准确;即使在某张图中出现了这11亿个物体之外的物体,机器也往往能够根据以往经验以较高的准确率“推断”出它是什么物体,并将其纳入自己的数据库,这就是为什么SAM对于从未见过的物体,也能有很好的识别与分割效果。

  “需要注意的是,这11亿个标注也不是纯手工完成的,而是通过渐进的方式自动完成标注的。一开始,这个数据集中只有相对少量的标注数据。科研人员先用这些数据训练出一个模型,然后再让这个模型自动标注数据,并通过人工对标注结果进行改进,这就得到了比上一个数据集更大一些的数据集。如此循环往复,就能得到海量标注数据集。”杨戈补充道。

  促进计算机视觉领域发展

  功能如此强大的图像分割通用模型,将给计算机视觉领域带来哪些改变?

  “我认为,SAM的出现将为计算机视觉领域的科研人员带来工作范式上的变化。”杨戈对笔者说道,“SAM的出现确实会对目前一些与机器人视觉相关的研究领域造成冲击,但从总体上看,SAM的出现会提升相关科研人员的效率。”

  杨戈解释道,以往科研人员构建图像分割模型,是一个“从下到上、从零开始”的过程;而图像分割通用模型则将模型构建方式变成了“从上到下”,即在已有性能和泛化能力更强的模型基础上继续修改、优化,“这可能确实会取代某些专有模型,但从总体上看它将有利于整个领域的发展。”

  此外,在具体应用上,图像分割通用模型前景十分广阔。

  工业中的机器视觉、自动驾驶、安防等一些原来采用计算机视觉技术的行业,因为长尾场景多,需要大量标签数据,因此训练成本较高。有了图像分割通用模型后,这些领域内定制化开发产品的成本可能会降低,由此带来毛利率的提升;还有一些领域,过去因为样本量少而难以应用深度学等人工智能算法。现在,由于SAM在零样本或者少量样本上表现优异,一些新的应用领域将被拓展,比如从代码驱动变为视觉驱动的机器人、流程工业场景等。

  同时,由于SAM可以接受来自其他系统的输入提示,因此科幻片中根据用户视觉焦点信息来识别并选择对应物体或将成为可能。

  SAM不仅将在上述这些前沿领域发挥作用,同样或将会用于人们的日常生活。“比如在医学影像诊断领域,SAM可能会催生出精度更高的医学影像模型,提升医疗水平;在拍照过程中,SAM的加入或将实现更快更智能的人脸识别。”杨戈说道。

责任编辑:关轩轩

来源: 科技日报实

版权声明:

原网页已被新农村转码收录,版权归文章来源方:科技日报实所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

您如因版权和若对该稿件内容有任何疑问,请30日内与新农村网联系,本网将迅速给您回应并做处理。

对于任何包含、经由链接、下载或其它途径所获得的有关本网站的任何内容、信息或广告,不声明或保证其正确性或可靠性。用户自行承担使用本网站的风险。

基于技术和不可预见的原因而导致的服务中断,或者因用户的非法操作而造成的损失,新农村网不负责任。

服务邮箱:4834222#qq.com(请将#替换成@)处理时间:上午9点至下午5点30分。

标签:
随便看看
本类推荐
本类排行
热门标签

振兴 50年 客运 利率 学区 经贸 接近 今夏 林草 低保 备耕 水产 500亿元 两强一增 专访 北京 舟山市 人形 总面积 商户 中国特色 担保 300个 直击 一周 艺术 常年 农民工 换新 博士 外业 常见 5个 游园会 提升 复合 捐赠 护航 冠军

Copyright 新农村网 版权所有