周鸿祎谈OpenAI大模型Sora

admin 2024-04-13 12:11 125次浏览 0 条评论今日更新

OpenAI于2024年2月15日正式对外发布人工智能文生视频大模型Sora，Sora继承了DALL-E 3的画质和遵循指令能力，可以根据用户的文本提示创建逼真的视频，该模型可以深度模拟真实物理世界，能生成具有多个角色、包含特定运动的复杂场景，能理解用户在提示中提出的要求，还了解这些物体在物理世界中的存在方式。

Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能，其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步，也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃。

今日下午，周鸿祎在微博发长文，谈论他对OpenAI刚刚发布的文生视频大模型Sora的看法。周鸿祎称，Sora意味着AGI实现将从10年缩短到1年。

周鸿祎表示，很多人说Sora的效果吊打Pika和Runway，这很正常，和创业者团队比OpenAI这种有核心技术的公司实力还是非常强劲的。周鸿祎认为，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败TikTok，更可能成为TikTok的创作工具。

此外，周鸿祎还提到，现在所有的文生图、文生视频都是在2D平面上对图形元素进行操作，并没有适用物理定律。但Sora产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。

所以他理解这次OpenAl利用它的大语言模型优势，把LLM和Diffusion结合起来训练，让Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。这都是大模型的功劳。

以下为全文：

Sora意味着AGI实现将从10年缩短到1年

周鸿祎

年前我在风马牛演讲上分享了大模型十大趋势预测，没想到年还没过完，就验证了好几个，从Gemini、英伟达的Chat With RTX到 OpenAl发布Sora，大家都觉得很炸裂。朋友问我怎么看Sora，我谈几个观点，总体来说就是我认为AGI很快会实现，就这几年的事儿了：

第一，科技竞争最终比拼的是让人才密度和深厚积累。很多人说 Sora的效果吊打Pika和Runway.这很正常，和创业者团队比，OpenAl这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行，实际今天再次证明这种想法是非常可笑的。

第二，Al不一定那么快颠覆所有行业，但它能激发更多人的创作力。今天很多人谈到 Sora对影视工业的打击，我倒不觉得是这样，因为机器能生产一个好视频，但视频的主题、脚本和分镜头策划、台词的配合，都需要人的创意，至少需要人给提示词。一个视频或者电影是由无数个60秒组成的。今天 Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败 TikTok，更可能成为 TikTok的创作工具。

第三，我一直说国内大模型发展水平表面看已经接近 GPT-3.5了，但实际上跟4.0比还有一年半的差距。而且我相信OpenAl手里应该还藏着一些秘密武器，无论是 GPT-5，还是机器自我学习自动产生内容，包括 AIGC.奥特曼是个营销大师，知道怎样掌握节奏，他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。

第四，大语言模型最牛的是，它不是填空机，而是能完整地理解这个世界的知识。这次很多人从技术上、从产品体验上分析 Sora，强调它能输出60秒视频，保持多镜头的一致性，模拟自然世界和物理规律，实际这些都比较表象，最重要的是 Sora 的技术思路完全不一样。因为这之前我们做视频做图用的都是Diffusion，你可以把视频看成是多个真实图片的组合，它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在2D平面上对图形元素进行操作，并没有适用物理定律。但 Sora产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。所以我理解这次OpenAl利用它的大语言模型优势，把LLM 和 Diffusion结合起来训练，让Sora 实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。这都是大模型的功劳。

这也代表未来的方向。有强劲的大模型做底子，基于对人类语言的理解，对人类知识和世界模型的了解，再叠加很多其他的技术，就可以创造各个领域的超级工具，比如生物医学、蛋白质和基因研究，包括物理、化学、数学的学科研究上，大模型都会发挥作用。这次 Sora对物理世界的模拟，至少将会对机器人具身智能和自动驾驶带来巨大的影响。原来的自动驾驶技术过度强调感知层面，而没有工作在认知层面。其实人在驾驶汽车的时候，很多判断是基于对这个世界的理解。比如对方的速度怎么样，能否发生碰撞，碰撞严重性如何，如果没有对世界的理解就很难做出一个真正的无人驾驶。

所以这次Sora只是小试牛刀，它展现的不仅仅是一个视频制作的能力，它展现的是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。

第五，Open AI训练这个模型应该会阅读大量视频。大模型加上 Diffusion技术需要对这个世界进行进一步了解，学习样本就会以视频和摄像头捕捉到的画面为主。一旦人工智能接上摄像头，把所有的电影都看一遍，把上和TikTok 的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，而视频传递的信息量又远远超过一幅图，这就离AGI真的就不远了，不是10年20年的问题，可能一两年很快就可以实现。

2月23日下午，两会前夕，第十四届全国政协委员周鸿祎在三六零总部接受媒体采访。

对于由Sora引发的中美在AI方面的差距，周鸿祎表示，“搞技术最难的是找到原创方向，在这种方向性的创新上，OpenAI做得非常好，我觉得（中美AI）差距主要在这方面。”

中美AI差距主要在“原创方向上”

对于Sora引发的中美在AI方面的差距，周鸿祎在接受采访时表示：

第一，中美有差距，看到差距才知道怎么迎头赶上。

“大家做个大模型就去刷榜，刷榜的游戏你们都知道，把那个考题预先训一遍。当然在刷榜的成绩里，国产大模型基本可以垄断Top1到Top10，GPT4都被刷到10名开外去了。但是，Sora的问世还是给了我们一桶清醒的冷水，让人看到还是有差距。”

第二，GPT手里有些秘密武器没有亮出来。

“在去年GPT‘宫斗’的时候，他们就争论了半天，现在GPT5已经在蓄势待发，GPT5发不发完全取决于奥特曼的心情和他的节奏感。奥特曼什么时候发呢？当Google要做什么事情的时候，或者当META要做什么事情的时候，他就会发一个东西。我认为，我们跟他们的差距主要在原创方向上。”

“Transformer模型并不是OpenAI发明的，但却是OpenAI第一个选择了一种新的用法，即在里面无限地加参数的大小，加注意力的连接数目，加神经网络的层数，他们相信一种暴力美学，即大力出奇迹。目前来看，Transformer这套模型至少被验证了，是目前效果最好的。所以，OpenAI走对了方向。”

在周鸿祎看来，这次Sora的出现在技术上有个巨大的成果，OpenAI用Transformer架构成功实现了对各种各样的文字、图片、声音还有视频的归一化处理，再加上Transformer本身对语义的了解和对知识的理解，所以，它这次能做出Sora是把GPT的能力融在里面了。

“搞技术最难的是找到原创方向。在这种方向性的创新上，OpenAI做得非常好，我觉得差距主要在这方面。”周鸿祎强调。

落后时间在一年到两年

不过，周鸿祎也表示，“人家一开源，我们科技就进步。再往下，国内可能在原始创新从零到一做得弱一点，但一旦OpenAI宣布了技术方向和产品，国内的模仿很快会跟上。所以，肯定又有很多家做出类似的文生视频的工具，会出现类似百模大战的情况。”

对于中国在AI方面的前景，周鸿祎认为，尽管中国在原创技术上落后，但这个落后不像光刻机和芯片差距那么大，“毕竟Transformer模型也好，Sora也好，本质上还是软件，所以，现在落后的时间，大概也就是一年到两年，是可以解决的。”

不过，周鸿祎强调，“不需要等到全面赶上GPT4、Sora才能去应用。所以，现在有一条主线是，做Sora和GPT4这种超级通用的大模型。”

“2024年应该是应用之年。否则大家对GPT会有啥感觉？就是能写诗，能斗乐子，能解奥数题，但离工作还太远。或者能在办公方面帮我们做一些工作。Sora大家震撼多点，是因为Sora比GPT更近一步，大家明显感觉，文生视频在影视工业、游戏行业、广告业能够做点具体的事了，但依然是一个通用的工具。所以，2024年在垂直领域，大模型是大有可为的。”

“这个技术解决之前，Sora的技术不可能放出来”

对于中国AI发展面临的安全挑战，周鸿祎认为，大模型作为一个IT系统，本身也是软件构成，现在面临一个比较急迫的问题，实际上是大模型的可信、可控、可靠的问题，其内容安全问题有以下几方面。

第一，幻觉问题。

幻觉是大模型智能的体现，是个双刃剑。在做文创时，比如Sora能产生一些鱼在空中飘着，或者樱花组成的老虎飞起来，最后变成樱花落下来。这些在文艺创作的时候，都是创造力的体现。但是，用在企业内部的时候，幻觉就会带来不准确。

第二，注入攻击问题。

大模型可以成为好人的帮手，也可以成为坏人的帮手。大模型里面的知识很多，过去只有黑客才能攻击一个系统，因为需要懂编程，“但现在你跟大模型能对话就能攻击它。”

“Sora出来之后，一个单词被大家忘了，过去叫深度伪造，都是换脸，做欺诈。但现在，深度伪造换了一个概念，叫做AIGC，就很高大上，AI产生内容。但你们看看Sora产生的视频，除了感受到创意之后，发现你能拿它做任何视频。这个视频可以干预美国大选，可以成为影响国家安全的武器。这方面的危险性其实非常大，这个工具是双刃剑，这也是内容安全。”

“为什么Sora的视频做出来之后，大家感觉很惊讶，不是画面多优美，那个很容易做，而是觉得它符合你对自然世界的判断。所以，这样做出来的视频真假莫辨，对心理战、舆论战、公关战会有影响。”

因此，周鸿祎认为，以后Sora的产品肯定要思考，如何在Sora产生的视频里加入不可更改、不可替换、不可修改的内部水印，“这样我们有一个配合读水印的程序，我们一看就知道它有没有水印，这个技术解决之前，Sora的技术不可能放出来。”

来源：中国基金报