Adobe聯手香港中文大學、約翰霍普金斯大學研究人員打造能以AI直覺修改影片複雜細節的工具

由香港中文大学、Adobe Research及约翰霍普金斯大学研究人员共同开发的新型AI模型「EditVerse」,最大突破在于试图打破传统图像编辑与影片编辑之间存在的巨大鸿沟,提出了一个统一的框架,让使用者能以类似编辑图片 (P图) 的直觉操作,针对影片进行复杂的细节编辑与生成。

研究团队指出,过去AI影片编辑之所以发展受限,主要在于架构隔阂 (模型多为图像或影片专用) 与数据稀缺 (高品质、带标注的影片数据远少于图像),而此款名为「EditVerse」的AI模型目标便是同时解决这两大难题。

核心技术:通用视觉语言与上下文学习

EditVerse的核心方法论包含:

•创造「通用视觉语言」:模型创新地将文字、图片、影片全部转换为一种统一的、一维的「Token序列」 (数据流)。使得AI能用同种方式理解和处理不同模态的视觉资讯。

• 强大的「上下文学习能力」:基于Transformer模型架构与全自注意力机制 (Full Self-attention),EditVerse能将包含指令、原始画面的整段Token序列拼接在一起处理,透过全自注意力机制精准理解各部分之间的关联 (例如指令文字、影片中的特定物件、参考图片中的风格等),而此设计也使其能灵活处理不同解析度与时长的输入。

•搭建「知识迁移桥梁」:由于采用统一框架,EditVerse能将在海量图像编辑数据中学到的知识 (如风格、特效),无缝迁移并应用于影片编辑任务,大幅缓解了影片数据稀缺的问题。

克服数据稀缺,建立EditVerseBench评测基准

为解决训练数据不足的问题,研究团队建立了一条数据生产线,利用多种专用AI模型先自动生成大量影片编辑样本,再透过视觉语言模型 (VLM)进行筛选,最终产生了23.2万个高品质影片编辑样本。

这批数据与600万图像编辑样本、390万影片生成样本等混合训练,强化了模型的知识迁移能力。

同时,为科学评估模型效果,团队也推出了业界首个针对指令式影片编辑的综合评测性能标准——「EditVerseBench」。该性能标准包含100个不同解析度的影片,涵盖20种编辑任务。

效果超越Runway,展现「涌现能力」

在EditVerseBench性能测试上,EditVerse在多项自动化评估指标 (包含影片品质、文字对齐、时间一致性、VLM评分等)上,全面领先于现有的开源模型 (如 TokenFlow、InsV2V等)。

更值得注意的是,在最接近人类偏好的VLM评分 (由GPT-4o进行评估),EditVerse的表现甚至超越了闭源的商业模型Runway Aleph。而在真人评测环节中,EditVerse也获得了51.7%的用户偏好度,胜过Runway Aleph。

研究人员更发现,EditVerse展现令人惊喜的「涌现能力」 (Emergent Ability)。即使其影片训练数据中并未包含特定的「材质变换」或「特效添加」样本 (例如将乌龟变成水晶、天空上加延时效果),模型依然能理解指令,并且成功完成任务。

透过消融实验 (移除图像编辑数据后模型能力大幅下降),团队证明了这种「无师自通」的能力,主要来自于模型从海量图像数据中学到的深层视觉原理,并且成功将其迁移至影片编辑领域。

创作新纪元

EditVerse的出现,不仅提供了一个强大的新工具,更可能预示着一个从分离走向统一、从繁琐走向简洁的全新内容创作范式的到来,有望将专业级的影片编辑能力普及给更多创作者。

目前相关论文、项目主页与测试代码皆已公开。

《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》