订阅
纠错
加入自媒体

Odyssey新“世界模型”:让你进入视频的世界,沉浸交互、实时生成

最近有一个挺有意思的模型。

在伦敦的初创公司Odyssey,上线了一个 “互动视频生成模型”。

它把视频,变成了一个可以互动、实时生成的世界。就像玩第一人称游戏一样,可以在视频里逛来逛去。

这个模型可以每40毫秒实时生成一帧高质量画面,用户通过键盘、手柄、甚至未来直接通过说话,就能让画面发生改变。

你按一下键盘,视频世界就做出反应,几乎无延迟地让你沉浸到这个世界。

1 不是游戏,不是CG,而是“世界模型”

跟传统视频或3D游戏不同,这项技术背后靠的是Odyssey自研的 “世界模型(World Model)”。

就是那个杨立昆和李飞飞大佬常挂在嘴边的“世界模型”。

过去的视频生成,是“批量产出”,一次生成大量图像帧,组成整个片段。

而世界模型更像“逐帧思考”,它每时每刻都在预测:“你刚刚按了前进键,我该生成什么景象?你刚刚转头,我该显示什么空间?”

这就像大语言模型预测下一个单词一样,不过现在预测的是图像,是动态的、沉浸式的、交互式的世界。

2 攻克最大技术难点:画面漂移

不过,让AI构建一个世界,远比生成一张图片复杂得多。

最大的问题是稳定性。

简单来说:AI每预测一帧,就往前走一步,但只要某一帧稍微出错,后面的内容可能就会彻底“走形”。专业术语叫做 漂移(drift)问题。

为了解决这个问题,Odyssey采用了一种取舍方式 —— “窄域预训练”。

它并不贪心地一上来就训练多样世界,而是:

先在大量通用视频上预训练,培养对真实世界的基本理解;

再用有限的特定环境做微调,画质牺牲一丢丢,但稳定性暴涨。

这个策略虽然降低了生成环境的多样性,但大大提高了稳定性。让你不会在视频中突然看到画面塌方、人物扭曲这些问题。

3 资本望风而动,皮克斯创始人亲自坐镇

Odyssey不止是技术先锋,还是资本宠儿。

Odyssey的两位创始人Oliver Cameron和Jeff Hawke都出身自动驾驶圈,一个是Wayve自动驾驶技术的AI研究元老,一个是Voyage自动驾驶公司的CEO。

二人将自动驾驶用到的“世界建模”理念,完美嫁接到AI视频中。

更重量级的大佬,Pixar联合创始人、迪士尼动画前总裁Ed Catmull也亲自加入董事会。

是的,就是做出《玩具总动员》的那位。

目前,Odyssey已获得超过2700万美元融资,投资方包括EQT Ventures、GV(Google Ventures)等一线基金。 

4 前景无限,不只娱乐

Odyssey坦白说,目前的版本还很初期:画面还不够清晰,互动感仍有限,场景稳定性也不完美。

但这不妨碍我们透过这些粗糙,看见一些真正有意义的东西。

Odyssey相信,这不只是一种技术突破,而是一种新的叙事媒介。

你不再只是看旅游Vlog,而是直接“走进”巴厘岛的沙滩;

医学院教学视频,变成能“操刀演练”的模拟课堂;

影视创作者只需控制角色和环境参数,就能实时生成整段剧情片段;

广告不再是死板的片段,而是用户可以在其中互动的品牌空间。

回顾人类文明的发展,从壁画、文字、戏剧,到广播、电影、电子游戏,每一次媒介革命都深刻改变了我们理解世界的方式。

如今,这种由AI驱动的、可实时交互的视频世界,或许会成为下一个“叙事引擎”。

对于Odyssey的世界模型,欢迎在评论区分享你的看法????

       原文标题 : Odyssey新“世界模型”:让你进入视频的世界,沉浸交互、实时生成

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号