视频生成模型Sora是“阿拉丁神灯”还是“潘多拉魔盒”？

　　视频生成模型Sora横空出世，让影视、广告业乃至教育界人士顿生危机感——

　　“阿拉丁神灯”？“潘多拉魔盒”？

　　“现实不存在了？”用“你方唱罢我登场”来形容春节假期最后两天大洋彼岸的“疯狂”，再贴切不过了。北京时间2月16日，谷歌的Gemini Pro 1.5还没出几个小时的风头，天一亮，全世界的聚光灯就集中在了OpenAI的Sora身上。

　　Sora，新型视频生成模型，它可以根据简短的文字提示(prompt)，将其转化为长达一分钟的高清视频，镜头感堪比电影。

　　未来，各种Sora视频或将现身并“占领”视频社交平台，其对现实的影响与改变，可谓巨大。

　　AI视频要“变天”了

　　Sora“逆天”在哪儿？它不仅能够根据文字指令创造出既逼真又充满想象力的场景，而且能生成长达1分钟的超长视频，还是一镜到底那种。

　　从发布的视频来看，60秒的视频中，视频主体与背景保持了高度的流畅性与稳定性，在一个视频里实现多角度镜头，分镜切换符合逻辑且流畅。此外，Sora对于光影反射、运动方式、镜头移动等细节处理非常到位。

　　“这座城市洁净无瑕，到处可见先进的未来式有轨电车、绚丽的喷泉、巨型的全息投影以及四处巡逻的机器人。”……OpenAI首席执行官山姆·奥特曼也亲自“下场”，在社交媒体上根据网友给出的prompt输出视频。

　　Sora的视频效果，几乎和人工拍摄不相上下，由此带来的强大冲击让无数人感叹：“现实，不存在了。”OpenAI是怎么做到的？根据官网介绍，“通过一次性为模型提供多帧的预测，我们解决了一个具有挑战性的问题。”数小时后，Sora的技术报告发布，尽管依旧“很OpenAI”——不包括模型和实现细节。技术报告中，“里程碑”是关键词。Sora还能将静态图像转化成视频，以该图像为背景，在视频中添加一些动态的元素，使图像变得更加生动。

　　据悉，OpenAI目前没有向公众发布Sora的计划，但将首次开始与第三方安全测试人员共享该模型。

　　对相关行业具颠覆性

　　纽约大学助理教授谢赛宁直言：“Sora将改写整个视频生成领域。”谢赛宁分析，Sora应该是建立在DiT这个扩散Transformer之上；在视频压缩网络上可能采用VAE架构，区别就是经过原始视频数据训练。他推算Sora可能有大约30亿个参数，并表示：“Sora或许并不需要人们想象中的那么多GPU来训练，如果真是如此，Sora的后期迭代将会非常快。”

　　英伟达人工智能研究院首席研究科学家Jim Fan认为，Sora是一个数据驱动的物理引擎，称这是视频生成领域的GPT-3时刻，“回到2020年，GPT-3不是一个很完美的模型，但是它有力证明了上下文学习的重要性，所以不要纠结于GPT-3的缺陷，多想想后面的GPT-4”。

　　360创始人周鸿祎也发布微博，提到自己对Sora的看法。在他看来，Sora只是小试牛刀，它展现的不仅仅是一个视频制作能力，而是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。周鸿祎写道：“这次OpenAI利用它的大语言模型优势，让Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。”他认为，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力，“今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败TikTok，更可能成为TikTok的创作工具”。

　　周鸿祎也直言：“一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube和TikTok上的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，这就离AGI真的不远了，不是10年、20年的问题，可能一两年很快就可以实现。”

　　人才培养模式需创新

　　全国政协委员、上海科技馆馆长倪闽景在《Sora只是开始，教育真正的挑战来了》一文中指出，Sora的出现，首先会让影视行业、广告行业的专业人士瑟瑟发抖，但是需要瑟瑟发抖的显然是教育行业。

　　“无论是ChatGPT还是Sora，都仅仅是开始，以强大算力和算法支持的数字大脑，将在学习能力、学习范围和学习深度上远超人类，人类只有依靠人工智能一起协同学习，才是教育的出路。”倪闽景认为，人类学习将进入超级学习阶段，教育的逻辑将改变：首先，重新定义知识，从知识到知与识；其次，重新定义学习，从工具到本能需要；最后，重新定义创造，从创造东西到创造体验。

　　倪闽景写道：“Sora在英文中有小鸟在空中咏唱的意思，这个浅浅的人工智能咏唱，如果能够让所有教育者听懂，那么我们是否会对各种无谓的内卷释然并放下呢？”

　　21世纪教育研究院院长熊丙奇认为，比感慨AI淘汰传统职业更重要的是，如何直面这一挑战，应对这一新的时代发展趋势。其中，最为关键的是，必须改革教育、创新人才培养模式。

　　他一针见血地指出，近年来，我国高校新增不少人工智能、大数据管理与应用专业；各地亦在大力推进教学数字化变革。不过，这些教育变革，存在两大值得关注的倾向：知识化倾向、应试化倾向。

　　熊丙奇表示：“如果不推进破除基础教育存在的功利化、短视化问题，AI+教育等技术变革，也难以带来人才培养模式的创新，更遑论提高人才自主培养质量，造就拔尖创新人才。”

　　他感慨，过去20多年来，我国教育界一直在求解钱学森世纪之问——“为什么我们的学校总是培养不出杰出人才？”在Sora刷屏、AI又取得突破后，如何求解钱学森世纪之问也更显紧迫。

　　“对此，要形成基本共识，那就是，只靠技术手段难以推进人才培养模式改革，必须改革教育管理与评价体系。”他表示。

　　警惕“潘多拉魔盒”

　　在Sora横空出世前，OpenAI首席执行官山姆·奥特曼就曾表示，人工智能有望在推理能力和可靠性、多模态、可定制化和个性化三个领域大幅提升，并认为，至少在未来5到10年内，AI大模型技术将处于一个非常陡峭的成长曲线上。

　　值得关注的是，就在Sora发布的同日，谷歌也发布其大模型矩阵的最新力作——Gemini 1.5，其将稳定处理上下文的上限扩大至100万Tokens(词元)，这代表它能一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。

　　新事物，显然无法做到“完美”。OpenAI明确指出，Sora可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。这一模型还可能混淆提示的空间细节，并且可能难以精确描述随着时间推移发生的事件——而这些缺陷或将使Sora生成一些不合逻辑的东西。

　　据了解，OpenAI内部仍在开展模型伦理侧的对抗性测试，比如错误信息、仇恨内容、偏见内容，至于色情暴力等，会在文本输入时就被拒绝。

　　近两日，也有一些人工智能业内人士向记者表示，从技术角度来看，Sora是非常重大的飞跃，但“硬币有两面”，它存在潜在的滥用可能，“在AI视频构建的世界中，‘眼见为实’行不通了，人们眼睛看到的东西，或许无法作为判断的依据”。

　　是“阿拉丁神灯”还是“潘多拉魔盒”，显然现在下结论为时过早。该业内人士同时表示，对于新技术的到来，需要社会足够的包容性；同时，在大规模推向社会前，务必“系好安全带”，做好应对风险的准备。

　　本报记者郜阳

　　来源：新民晚报【编辑:曹子健】

视频生成模型Sora是“阿拉丁神灯”还是“潘多拉魔盒”？

相关推荐