资讯 创新 业界 数码 财经 电商 观点 人物 生活 综合 聚焦 关注 热点

人工智能行业点评:SAM模型带来图像分割的GPT-3时刻,机器视觉和多模态AI迎突破

2023-04-10 20:14:54      来源:研报中心

事项:

2023年4月6日Meta宣布推出SegmentAnythingModel工具,可准确识别图像中的对象。该项目包括模型、数据集,并以较为宽松的Apache2.0许可下允许他人使用。该模型能够根据文本指令等方式实现图像分割,而且万物皆可识别和一键抠图,有望对人工智能CV领域产生重大影响。


(相关资料图)

国信计算机观点:1)Meta推出SAM模型,图像分割效果卓群,SAM允许用户以灵活的方式进行图像分割。以往机器视觉的识别算法,需要对特定对象的大量标注和训练。SAM模型对此升级,具备“零样本”或者“少样本”泛化能力,可类比ChatGPT在语言领域的应用和突破。2)Meta发布有史以来最大的分割数据集SA-1B,得益于基础模型中prompt的引入,SAM模型数据集的收集速度和体量均有大幅提升。3)SAM开源将大幅提升CV产业能力,机器视觉产业将全面受益于SAM模型发展;同时结合大语言模型的快速发展,多模态AI应用有望加速。5)投资建议:建议关注机器视觉、多模态AI产业,包括视觉内容生成、VR、AR等领域,重点关注海康威视、萤石网络、千方科技、虹软科技、当虹科技等。5)风险提示:国内AI技术和应用发展不及预期;宏观经济下滑影响IT支出;AI应用相关政策和法律推进缓慢。

评论:

Meta发布SAM模型,CV领域迎来迎来GPT-3时刻

Meta推出SAM模型,图像分割效果卓群。分割作为计算机视觉的核心任务,已经得到广泛应用,但是以往该任务需要大量数据标注和高度专业化的工作。Meta发布的SAM可以识别图像和视频中的任何物体,即使是在此前的训练过程中从未遇到过。目前SAM能很好的自动分割图像中的所有内容,还能根据提示词进行图像分割。Meta内部已经使用了与SAM类似的技术,用于标记照片、审核违禁内容以及确定向Facebook和Instagram用户推荐哪些帖子等活动。

SAM对图像分割技术形成突破。图像分割主要有2种解决方法:第一种是交互式分割,该方法允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法;第二种是自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(如数万个分割猫的例子)。SAM很好的结合了两种方法,以一个单一的模型,实现交互式分割和自动分割。SAM允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、boxes、文本等),就可以完成范围广泛的分割任务,这种灵活性在图像分割领域尚属首创。

在工作原理层面,图像编码器会为图像生成一次性嵌入,而轻量级编码器则将所有提示实时转换为嵌入向量。之后,将这两个信息源组合在一个负责预测分割掩码的轻量级解码器内。在计算图像嵌入之后,SAM能够在50毫秒内根据网络浏览器中的任意提示生成相应分割。

Meta发布有史以来最大的分割数据集SA-1B

数据集同样是SAM模型成的关键。Meta还发布了一个图像注释数据集SegmentAnything1-Billionmask(SA-1B),该数据集包含超11亿个掩码,据称是同类数据集中最大的。得益于当前基础模型中prompt的引入,MetaAI团队也将该技术应用于对新数据集和任务执行零样本和少样本学习。本次数据收集是由SAM完成,标注者使用SAM以交互方式标记图像,之后使用新标注的数据依次更新SAM。通过多次重复此循环,以迭代方式改进模型和数据集。SAM收集分割掩码的速度大幅提升,只需约14秒即可以交互方式标注掩码;与之前的大规模分割数据收集工作相比,SAM模型速度提升了数倍。SAM数据集包含从约1100万许可和隐私保护图像上收集到的超11亿个分割掩码。SA-1B的掩码比任何现有分割数据集都多出400倍;且经过评估,这些掩码的质量和多样性均保持较高水平。

Meta开源SAM模型,多模态AI应用可期

SAM开源将大幅提升CV产业能力。Meta对SAM模型从数据集到训练代码和预训练结果完全开源,有望大幅提升产业应用生态。英伟达人工智能科学家JimFan表示,SAM的能力可类比为计算机视觉领域的GPT-3时刻,SAM已经了解物体的一般概念,即使对于未知对象、不熟悉的场景和模棱两可的情况下也能进行很好的图像分割。SAM已经足够通用,可以覆盖广泛的用例,具备零样本千亿能力,在新的图像领域实现即开即用,而无需额外训练。SAM的开源将带动CV产业再次跃升。

机器视觉产业将全面受益于SAM模型发展。图像分割即识别出图像中的哪些像素隶属于同一对象,是计算机视觉领域的一项核心任务。当前智能摄像机的人脸、车牌、物体的识别均是图像分割的应用。以往机器视觉的识别算法,需要对特定对象的大量标注和训练。SAM模型对此升级,具备“零样本”或者“少样本”泛化能力,可类比ChatGPT在语言领域的应用和突破。机器视觉产业能力有望大幅提升。

SAM将推动多模态AI应用发展。多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。多模态研究的就是这些不同类型的数据的融合的问题,例如通过NLP的预训练模型,可以得到文本的嵌入表示;再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示。当前发展火热的GPT-4,主要是基于大语言模型的语言和文字维度;结合当前SAM模型的视频和图像维度,多模态AI融合可期。

SAM模型各类应用有望逐步爆发。Meta仍在持续提升图像分割的能力,尤其是可提示的分割模型,Meta希望基于prompt工程等技术的可组合系统设计将支持更广泛的应用。目前除了Meta在内部标记照片等使用场景外,SAM还可以成为AR、VR、内容创建、科学领域和更通用AI系统的强大组件,例如通过AR眼镜识别日常物品等。

投资建议:

Meta推出SAM模型,其卓越的图像分割能力将对机器视觉产业造成深远影响。SAM模型能够在“零样本”或者“少样本”具备对未知物体的识别,有望颠覆传统的CV发展路径;尤其是其开源的背景下,全球机器视觉产业均迎来GPT-3时刻。同时,SAM模型以视频和图像识别为方向,结合当前快速发展的大语言模型,多模态AI融合发展可期。因此,我们建议关注机器视觉、多模态AI产业,包括视觉内容生成、VR、AR等领域,重点关注海康威视、萤石网络、千方科技、虹软科技、当虹科技等。

风险提示:

国内AI技术和应用发展不及预期;宏观经济下滑影响IT支出;AI应用相关政策和法律推进缓慢。

关键词

最近更新

今日推荐
资讯
48小时频道点击排行
Copyright @ 2008-2017 www.gxff.cn All Rights Reserved 中国创新网 版权所有 联系我们: 58 55 97 3 @qq.com 备案号:沪ICP备2022005074号-30