lywebsite

新闻

新闻 活动

清华 & 哈佛团队推出 LangSplat:更准确描述 3D 场景、比 LERF 快 199 倍

清华大学与哈佛大学携手合作,共同研发的全新AI系统LangSplat近日引起了科技界的瞩目。这个名为LangSplat的系统在三维空间内能够高效、准确地搜索开放式词汇,标志着对3D语言场的一次重大突破。


LangSplat是首个基于3D语言场方法的系统,采用了3D Gaussians(3D高斯函数)的革新技术。更特别的是,它引入了SAM和CLIP这两个先进的模型,使其在开放式词汇的3D对象定位和语义分割任务上超越了目前最先进的方法。与此同时,LangSplat在速度上更是超越了LERF,快了整整199倍。


0119 ai 1.png


早在2023年3月,加州大学伯克利分校的研究人员展示了语言嵌入式辐射场(LERF),这是一种将语言嵌入到NeRF(神经辐射场)中的技术。LERF的优势在于无需专门培训即可在三维环境中准确识别物体,但它存在实时搜索的不足,搜索结果准确率也较低。为了解决LERF的瓶颈,LangSplat采用了3D高斯函数构建3D语言场,避免了NeRF所需的繁琐渲染过程。在分辨率为1440 x 1080像素的情况下,LangSplat的速度比LERF快了整整199倍。


研究团队通过展示多个案例,生动展示了LangSplat的强大之处。在一个茶杯里泡茶叶的场景中,相比LERF标记两个杯子,LangSplat标记的是杯子中的液体。而在另一个例子中,它可以准确标记一碗拉面汤中的单个配料。


0119 ai.png


LangSplat采用了Meta的 分段任意模型 (Segment Anything Model)来学习分层语义。这一过程中,图像被分解成边界清晰的不同物体掩码,而物体则被进一步分解成整体、部分和子部分。随后,CLIP对学习到的遮罩进行处理,嵌入模型会训练一个自动编码器,最终用于训练LangSplat的3D高斯函数。


研究人员使用LERF和3D OVS两个数据集对LangSplat进行了测试,结果显示,LangSplat在总体准确率上表现出色,分别达到了84.3%和93.4%,而LERF则分别为73.6%和86.8%。


LangSplat的诞生标志着在3D语言场领域的一次重大突破,为未来的AI系统发展指明了方向。其高效、准确的搜索能力和广泛的应用场景让人对人工智能的未来充满期待。在科技不断演进的时代,LangSplat的出现将无疑推动AI技术在三维环境中的发展,为人类创造更加智能、便捷的未来。


© 热控科技 版权所有  隐私政策