时间:2023-04-17人气:加载中...
最近一段时间,人工智能通用模型领域频现“爆款”。4月,Meta公司发布了一款名为“Segment Anything Model”(SAM)的通用模型,号称可以“零样本分割一切”。也就是说,SAM能从照片或视频图像中对任意对象实现一键分割,并且能够零样本迁移到其他任务中。
在相关展示页面中,科技日报笔者看到,在一张包含水果、案板、刀具、绿植、储物架等众多物体、背景杂乱的厨房照片中,该模型可迅速识别出不同的物体,以粗线条勾勒出物体轮廓,并用不同颜色对不同物体进行区分。“这就是SAM最重要的功能——图像分割。”中国科学院自动化研究所多模态人工智能系统全国重点实验室研究员、中国科学院大学人工智能学院教授杨戈向笔者表示。
那么,SAM的技术原理是什么?相比于此前的图像分割模型,该模型有何不同?未来又有可能在哪些方面应用?
图像分割通用模型泛用性强
杨戈向笔者解释道,像SAM这样可以处理多种不同类型任务的人工智能模型,叫作通用模型。与之相对,那些专门处理一种类型任务的人工智能模型,叫作专有模型。
打个形象的比喻,通用模型就好比是一个“多面手”。它具有处理一般事务的能力,但是在精度等性能上往往会逊色于只处理一种类型任务的专有模型。
既然通用模型可能会在精度上低于专有模型,为什么还要费尽心力地开发通用模型?对此,杨戈表示,通用模型与专有模型定位不同。通用模型带来的,是解决分割问题的新范式,特别是帮助科研人员提升在解决专有任务时的效率,“以前,面对不同的任务需求,科研人员往往需要开发不同的专有模型来应对。这样开发出的模型精度确实会更高,但是往往也会付出较大的研发成本,而且研发的模型通用性不强。”杨戈说。
通用模型能够将所有任务都处理得“八九不离十”,因此科研人员往往只需在通用模型的基础上进行优化,使之更加符合任务需求即可,而不需要费尽心力地从零开始搭建专有模型。因此,通用模型的初始开发成本可能会高,但随着使用通用模型的次数越来越多,其应用成本也会越来越低。
SAM就是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同,SAM可以处理所有类型的图像。“在SAM出现前,基本上所有的图像分割模型都是专有模型。”杨戈补充道,“打个比方,在医学领域,有专门分割核磁图像的人工智能模型,也有专门分割CT影像的人工智能模型。但这些模型往往只在分割专有领域内的图像时,才具有良好性能,而在分割其他领域的图像时往往性能不佳。”
有业内专家表示,相比于以往的图像分割模型,SAM可以识别各种输入提示,确定图像中需要分割的内容,还可以灵活集成到虚拟现实/增强现实等其他系统中,且目前对于一些它未见过或相对模糊的场景,也能实现较好的图像分割效果;同时,SAM建立了一套图像分割的通用模型,降低了对于特定场景建模知识、训练计算、数据标记的需求,有望在统一框架下完成图像分割任务。目前Meta公司已经开放共享SAM的代码和训练数据集。
利用海量数据实现准确分割
那么,SAM是通过什么技术手段,实现对物体的识别与分割?尤其是在面对复杂环境、甚至没遇到过的物体和图像时,SAM又是怎么做到准确识别与分割的?
“根据Meta发布的相关论文,SAM的模型结构其实并不是特别复杂。”杨戈告诉笔者,“它用到了一个叫作‘编码解码器’的构架。”
笔者了解到,SAM先通过图像编码器为图像生成编码,同时用一个轻量级编码器将用户的文字提示转换为提示编码。然后,SAM将图像编码分别和提示编码信息源组合在一起,输送到一个轻量级解码器中,用于预测分割掩码。这样一来,一旦使用者给出提示,则每个提示只需要几毫秒就能在浏览器中得到结果响应。
杨戈用了一个生动的例子解释SAM的运行原理。“比如说,给你一张带有猫和狗的图片。‘将照片中的猫标注出来’这就是提示;但是对于机器来说,它并不能直接‘明白’这种文字性提示,因此就需要将文字性提示转换为机器能够理解的提示编码。”同理,对于照片中的猫和狗,机器实际上并不能直接“明白”什么是猫、什么是狗,而是将照片中的猫和狗与图片编码对应起来。SAM通过训练学习提示编码与图片编码的不同结合,理解人类在文字提示中表述的希望如何分割这张图片。一旦“将照片中的猫标注出来”这句提示被输入时,SAM就能快速运行,得到人类想要的结果。
既然SAM并没有真正理解什么是猫、什么是狗,它又是如何准确地执行人类赋予的任务的呢?
责任编辑:关轩轩
来源: 科技日报实版权声明:
原网页已被新农村转码收录,版权归文章来源方:科技日报实所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
您如因版权和若对该稿件内容有任何疑问,请30日内与新农村网联系,本网将迅速给您回应并做处理。
对于任何包含、经由链接、下载或其它途径所获得的有关本网站的任何内容、信息或广告,不声明或保证其正确性或可靠性。用户自行承担使用本网站的风险。
基于技术和不可预见的原因而导致的服务中断,或者因用户的非法操作而造成的损失,新农村网不负责任。
服务邮箱:4834222#qq.com(请将#替换成@)处理时间:上午9点至下午5点30分。
Copyright 新农村网 版权所有