OpenAI再寫AI生成模型新里程碑:Sora的優勢與風險何在?
※如欲转载本文,请与北美智权报联络
吴碧娥╱北美智权报 编辑部
OpenAI将Sora技术报告取名为「Video generation models as world simulators」,展现OpenAI打造「世界模拟器」的企图。Sora是AI发展进程的里程碑,将加速超越人类的「通用人工智慧」(AGI)到来,Sora不仅推动上游AI伺服器、光通讯和晶片产业发展,影视、广告行销、IP等内容产业,未来都有可能受益于生成式影片发展。
OPEN AI正在教导AI理解和模拟物理世界的运行方式,Sora建立在过去OpenAI对DALL-E和GPT模型的基础之上,OpenAI在2023年9月发布了DALL-E 3,它是DALL-E文字到图像模型系列的第三代产品。Sora利用改良版的DALL-E3技术,并超越了ChatGPT基于文字模型的功能。根据OpenAI公布的Sora大模型技术报告,Sora的核心技术为Diffusion Transformer架构,透过影片压缩网路、时空补丁提取和影片生成三个主要步骤,可制作出长达60秒、解析度1080p的影片,还能根据文字提示编辑和扩展内容,代表着人工智慧创建内容领域的重大突破。
要训练从文字到影片的AI产生系统,需要大量带有相应文字字幕的影片,OpenAI首先训练一个高度描述性的字幕产生器模型,并对高度描述性影片字幕进行训练,以提高文字保真度以及影片的整体品质。OpenAI利用GPT将简短的使用者提示,转换为较长的详细字幕,然后传送到视讯模型,使Sora能够根据用户提示词产生准确的高品质影片,还能够在时间上向前或向后,扩展出更长且视觉连贯的影片。
在发布Sora的同时,OpenAI也承认Sora有其限制,包括不能准确模拟基本相互作用的物理过程(例如玻璃破碎)、长时间样本中可能出现不连贯性,或是对于理解因果关系仍有挑战。而为了安全性问题,Sora将限制对性、暴力、仇恨或名人图像,以及包含智慧财产权内容的文字提示。OpenAI目前先向小型的「红队」(red teaming)提供部分的访问权限,「红队」由错误讯息、仇恨内容和偏见等领域的专家所组成,他们将以对抗性方式测试Sora模型。OpenAI亦和特定的影片制作者和艺术家共享Sora,以寻求在创意领域中的使用回馈,未来才会进一步将Sora公开给一般公众,时间仍未定。
还有哪些AI影片生成工具?
事实上,文字生成影片并非新鲜事。在Sora发布前,已有数十种影片生成产品开始投入使用,全球数百万用户根据文字或图像提示创建短片。根据美国投资机构a16z统计,截至2023年底,已有21个经由大型科技企业和新创公司发布的AI视讯模型,其中包括较知名的Runway、Pika、Genmo以及Stable Video Diffusion等[1](详见图一)。
图一、21个AI影片模型
图片来源:a16z
Sora并非同类产品中的第一个,只是其他已经发布的AI模型,基本上都只能生成10秒以内的极短影片,Sora可以产生60秒一镜到底的多镜头影片,大幅提高了影片的品质和生成内容长度。而其他大型科技公司也有令人瞩目的AI影片生成模型,像是Meta的Emu Video、Google的Lumiere,以及字节跳动的MagicVideo,只是至今仍未宣布他们的模型何时公开,仅处于研究阶段。因此,OpenAI推出的Sora,仍为AI影片生成行业向前迈出了一大步。
用AI模型也能拍出电影
另一个值得注意的是,热门照片和影片编辑应用程式Facetune和Photoleap背后的以色列新创公司Lightricks,即将在今年3月27日推出一款视觉AI视讯工具LTX Studio,强调仅使用文字描述即可产生角色、场景、分镜,除了能在较长的制作过程中进行编辑和控制,甚至可以制作整部电影。由使用者编写生成人物和情节的文字描述,再从各种摄影机角度和风格中进行选择,并添加音乐、音频和各种自订元素。Lightricks表示,LTX Studio最初将会是免费的,未来希望透过LTX Studio催生更多类型的电影专案,即使是非常小的团队,也能够创造出惊奇之作。
图二、LTX Studio带来的故事叙述体验。
图片来源:LTX Studio
潜在的资安风险
KPMG安侯企业管理股份有限公司董事总经理谢昀泽表示,过去一段时间,以生成式AI技术创作或伪冒影片的深伪技术(Deepfake)越来越普及,但多数影片都无法达到高画质、长时间,且多镜位的品质,且深伪的工具使用门槛也较高。但Sora却一举突破了这些障碍,根据简单的提示词所生成的4K超高画质影片,真实感已经达到专业人士难以分辨真伪的程度。
谢昀泽认为,过去大家都担心会有超越专家能力的「超级人工智慧」(Super AI)出现,但是现在「超级深伪」(Super Deepfake)欺诈技术,已随着越来越多的网路AI影音服务就在眼前,如果没有适当的风险控制,恐将形成「深伪即服务」(Deepfake as a Service,简称DaaS)的暗黑产业链,这项技术可能被用来制造更加精细和难以辨识的假新闻,对公众意识形态、选举、乃至国家安全均构成前所未有的挑战,连过去传统的资安防护与认证基础工程,如远距身分识别等机制,都可能被撼动。尽管Sora的能力令各界感到惊艳,但AI生成影片所衍生的社会影响和道德问题仍成为隐忧,尤其美国将在2024年进行总统大选,AI生成影片可能传递错误和诈欺宣传,在选举期间更成为不可忽视的巨大风险,潜在资安风暴正在生成中。
资料来源:
备注:
骅讯电子总经理室特助
经济日报财经组记者
东森购物总经理室经营企划
延伸阅读&电子报订阅连结:
【更多内容请见《北美智权报》352期;欢迎订阅《北美智权报》电子报】