22 日凌晨,国际计算机视觉大会 ICCV(IEEE International Conference on Computer Vision)揭幕了本年度最佳论文获得者。
最佳论文奖来自卡耐基梅隆大学青年学者朱俊彦团队。论文题目为《Generating Physically Stable and Buildable Brick Structures from Text》。
ICCV 是全球计算机视觉三大顶会之一,每两年举办一次。数据显示,今年大会共收到了 11239 份有效投稿,程序委员会推荐录用 2699 篇论文,最终录用率为 24%,相比上一届论文数量有大幅增长。
朱俊彦本科就读于清华大学,现任卡耐基梅隆大学计算机科学学院助理教授,是 Adobe 前研究科学家。主要研究方向为计算机视觉、图形学、计算摄影和生成模型。
这篇获奖论文提出了 “砖块” GPT——BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接的积木装配模型的方法。图源:https://arxiv.org/pdf/2505.05469
高度有效和稳定
用现有方法创建现实世界的物体仍然具有挑战性。朱俊彦团队致力于解决生成物理可实现对象的挑战,目标是开发一种方法,直接从自由格式的文本提示生成砖块组装结构,同时确保物理稳定性和可建造性。
团队推出了 StableText2Brick,这是一个全新的大规模数据集,包含 47,000 多种不同的积木拼装结构。
为了实现序列和文本理解,研究人员针对砖块结构生成任务对预训练的 LLM 进行了微调。为了提高设计的稳定性和可构建性,研究团队在推理过程中还使用了逐块剔除采样和物理感知回滚。
基础模型可以通过上下文学习生成砖块结构,凸显了使用预训练的 LLM 完成任务的潜力。
位了确保物理稳定性,可以对每个步骤应用稳定性进行分析,并重新采样可能导致倒塌的砖块。
但是这种方法效率较为低下,团队还是建议采用逐块剔除采样并结合物理感知回滚的方法,以平衡稳定性和多样性。
为了解决物理配置问题,模型进一步将物理稳定性验证纳入自回归推理中。
首先,当模型生成一块砖块及其位置时,该砖块应格式正确,且不位于工作空间之外。其次,确保新添加的砖块不会与现有结构发生碰撞。
根据评估,团队的研究方法生成了与给定文本提示对齐的高质量、多样化且新颖的砖块结构。在有效性和稳定性方面优于所有基准测试方法以及简化设置,同时保持了较高的文本相似度。
结语
由于计算资源有限,团队尚未探索最大的 3D 数据集,仅限于在 21 个类别的网格内生成设计,而最近的 3D 生成方法可以创建更多种类的对象。
其次,方法目前支持一组固定的常用玩具积木。在未来的工作中,研究团队还计划扩展积木库,使其涵盖更广泛的尺寸和积木类型,例如斜坡积木和瓷砖积木,从而实现更加多样化和复杂的设计。
但实验结果也证明,朱俊彦团队的方法优于 LLM 骨干模型和一些近期的文本转 3D 生成方法,是 LLM 研究的一次重大突破。
参考资料:
https://arxiv.org/pdf/2505.05469
发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论