☰

OpenAI再寫AI生成模型新里程碑：Sora的優勢與風險何在？

※如欲转载本文，请与北美智权报联络

吴碧娥╱北美智权报　编辑部

OpenAI将Sora技术报告取名为「Video generation models as world simulators」，展现OpenAI打造「世界模拟器」的企图。Sora是AI发展进程的里程碑，将加速超越人类的「通用人工智慧」（AGI）到来，Sora不仅推动上游AI伺服器、光通讯和晶片产业发展，影视、广告行销、IP等内容产业，未来都有可能受益于生成式影片发展。

OPEN AI正在教导AI理解和模拟物理世界的运行方式，Sora建立在过去OpenAI对DALL-E和GPT模型的基础之上，OpenAI在2023年9月发布了DALL-E 3，它是DALL-E文字到图像模型系列的第三代产品。Sora利用改良版的DALL-E3技术，并超越了ChatGPT基于文字模型的功能。根据OpenAI公布的Sora大模型技术报告，Sora的核心技术为Diffusion Transformer架构，透过影片压缩网路、时空补丁提取和影片生成三个主要步骤，可制作出长达60秒、解析度1080p的影片，还能根据文字提示编辑和扩展内容，代表着人工智慧创建内容领域的重大突破。

要训练从文字到影片的AI产生系统，需要大量带有相应文字字幕的影片，OpenAI首先训练一个高度描述性的字幕产生器模型，并对高度描述性影片字幕进行训练，以提高文字保真度以及影片的整体品质。OpenAI利用GPT将简短的使用者提示，转换为较长的详细字幕，然后传送到视讯模型，使Sora能够根据用户提示词产生准确的高品质影片，还能够在时间上向前或向后，扩展出更长且视觉连贯的影片。

在发布Sora的同时，OpenAI也承认Sora有其限制，包括不能准确模拟基本相互作用的物理过程（例如玻璃破碎）、长时间样本中可能出现不连贯性，或是对于理解因果关系仍有挑战。而为了安全性问题，Sora将限制对性、暴力、仇恨或名人图像，以及包含智慧财产权内容的文字提示。OpenAI目前先向小型的「红队」（red teaming）提供部分的访问权限，「红队」由错误讯息、仇恨内容和偏见等领域的专家所组成，他们将以对抗性方式测试Sora模型。OpenAI亦和特定的影片制作者和艺术家共享Sora，以寻求在创意领域中的使用回馈，未来才会进一步将Sora公开给一般公众，时间仍未定。

还有哪些AI影片生成工具？

事实上，文字生成影片并非新鲜事。在Sora发布前，已有数十种影片生成产品开始投入使用，全球数百万用户根据文字或图像提示创建短片。根据美国投资机构a16z统计，截至2023年底，已有21个经由大型科技企业和新创公司发布的AI视讯模型，其中包括较知名的Runway、Pika、Genmo以及Stable Video Diffusion等[1]（详见图一）。

图一、21个AI影片模型

图片来源：a16z

Sora并非同类产品中的第一个，只是其他已经发布的AI模型，基本上都只能生成10秒以内的极短影片，Sora可以产生60秒一镜到底的多镜头影片，大幅提高了影片的品质和生成内容长度。而其他大型科技公司也有令人瞩目的AI影片生成模型，像是Meta的Emu Video、Google的Lumiere，以及字节跳动的MagicVideo，只是至今仍未宣布他们的模型何时公开，仅处于研究阶段。因此，OpenAI推出的Sora，仍为AI影片生成行业向前迈出了一大步。

用AI模型也能拍出电影

另一个值得注意的是，热门照片和影片编辑应用程式Facetune和Photoleap背后的以色列新创公司Lightricks，即将在今年3月27日推出一款视觉AI视讯工具LTX Studio，强调仅使用文字描述即可产生角色、场景、分镜，除了能在较长的制作过程中进行编辑和控制，甚至可以制作整部电影。由使用者编写生成人物和情节的文字描述，再从各种摄影机角度和风格中进行选择，并添加音乐、音频和各种自订元素。Lightricks表示，LTX Studio最初将会是免费的，未来希望透过LTX Studio催生更多类型的电影专案，即使是非常小的团队，也能够创造出惊奇之作。

图二、LTX Studio带来的故事叙述体验。

图片来源：LTX Studio

潜在的资安风险

KPMG安侯企业管理股份有限公司董事总经理谢昀泽表示，过去一段时间，以生成式AI技术创作或伪冒影片的深伪技术（Deepfake）越来越普及，但多数影片都无法达到高画质、长时间，且多镜位的品质，且深伪的工具使用门槛也较高。但Sora却一举突破了这些障碍，根据简单的提示词所生成的4K超高画质影片，真实感已经达到专业人士难以分辨真伪的程度。

谢昀泽认为，过去大家都担心会有超越专家能力的「超级人工智慧」（Super AI）出现，但是现在「超级深伪」（Super Deepfake）欺诈技术，已随着越来越多的网路AI影音服务就在眼前，如果没有适当的风险控制，恐将形成「深伪即服务」（Deepfake as a Service，简称DaaS）的暗黑产业链，这项技术可能被用来制造更加精细和难以辨识的假新闻，对公众意识形态、选举、乃至国家安全均构成前所未有的挑战，连过去传统的资安防护与认证基础工程，如远距身分识别等机制，都可能被撼动。尽管Sora的能力令各界感到惊艳，但AI生成影片所衍生的社会影响和道德问题仍成为隐忧，尤其美国将在2024年进行总统大选，AI生成影片可能传递错误和诈欺宣传，在选举期间更成为不可忽视的巨大风险，潜在资安风暴正在生成中。

资料来源：

备注：

骅讯电子总经理室特助

经济日报财经组记者

东森购物总经理室经营企划

OpenAI再寫AI生成模型新里程碑：Sora的優勢與風險何在？

相关资讯