我为何永远拒绝人工智能文本转视频生成器

我尝试了几种人工智能文本转视频生成器,虽然这项技术无疑令人印象深刻,但最终结果总是有一些不对劲的地方。花了好一会儿才指出问题所在,但我最终意识到这都归结为一件事:恐怖谷效应。

虽然我在我的视频项目中确实使用了一些人工智能驱动的视觉效果工具,但我无法让自己使用人工智能来生成视频片段,因为它看起来太......怪异了。

由于深度学习的进步,人工智能视频生成在短时间内取得了巨大的进步。如果您在 2023 年人工智能视频生成大热的时候在线,您可能还记得威尔·史密斯吃意大利面的这个片段在网上流传。尽管这种技术在当时具有开创性意义,但不可否认它看起来是多么不自然和令人不安。

在 2024 年,这些生成式人工智能视频工具正变得更加完善,创造出更流畅的视觉效果和更逼真的动作。瞧瞧 2023 年用 Runway Gen-2 创作的视频和 OpenAI 在 2024 年为推出 Sora AI 所公布的视频之间的差别。Sora 尚未向公众开放使用,但这是承诺给我们的质量水平:

尽管有了改进,我还是没被打动。首先,Sora 还没法用,所以咱们还是得用那些不太精细的生成器,它会产生跟威尔·史密斯的意大利面视频一样让人毛骨悚然的结果。

瞧瞧我用PixVerse根据提示“一个人在阳光明媚的日子里穿过公园,微笑着向镜头挥手。鸟儿在头顶飞翔,树木在微风中轻轻摇曳。”创作的这个视频呀。

前两秒钟看起来还算不错,直到这个人的手指、头发还有脸开始融入到空气中!即使更先进的像 Sora 这样的生成器出现并且给我们提供更准确、更漂亮的视频,人工智能生成的人和风景还是有那么点儿令人不安。

而较旧的模型通常生成的视频有着明显的人工智能特征,比如那些黏土动画风格的视觉效果,新生成器的改进效果看起来近乎完美得过头了。当我观看来自 Sora 的那些片段时,感觉对结果的优化尝试正在步入过度精致的范畴,看起来如此完美无瑕,最终却显得毫无生气和死气沉沉。

不自然、令人不安、毫无生气和死气沉沉。这正是恐怖谷效应——看着像人,却又并非完全是人。

无论这些生成器变得多么好,恐怖谷效应总会一直存在。除非我追求一种抽象且超现实的美学,就像那种只有在梦里才能见到的,否则我在任何视频项目中都不会依赖人工智能文本转视频生成器。