笔记本也能生成4096x4096图片?SANA轻松生成高分辨率图像!

NVIDIA、麻省理工学院 (MIT) 和京都精华大学的研究团队发布了一款名为“Sana”的图像生成AI,它可以在几秒钟内生成分辨率高达4096×4096的图像。

以下是用Sana实际生成的图像范例。使用“astronaut in a jungle, cold color palette, muted colors, detailed,8k(丛林中的宇航员,冷色系,柔和的颜色,精细,8K)”的提示词,可以生成这样的图像:

使用“a cyberpunk cat with a neon sign that says“SANA”(一只带有写着“SANA”的霓虹灯的赛博庞克猫)”的提示词生成的图像是:

输入“portrait photo of a girl, photograph, highly detailed face, depth of field(女孩的肖像照片,写实,非常细致的脸部,景深)”的提示词,则生成了逼真的人物图像:

根据Sana的开发团队介绍,相较于传统只能压缩至8倍的自动编码器(Autoencoder),Sana能通过对最大32倍压缩的自动编码器进行训练,进而有效减少潜在标记的数量,实现高效的训练和4K超高分辨率图像的生成。

此外,Sana使用一个名为“Gemma”的语言模型作为文本编码器,专门负责解码器部分,这强化了对提示词的理解与推理表现。不同于以往的T5模型,Gemma具有更强的文本理解能力,这能在应对训练不稳定性时,改善图像与文本的对应关系。同时,为了减少采样步骤,Sana引入了名为“Flow-DPM-Solver”的机制,这使得采样步骤从“Flow-Euler-Solver”的28至50步减少到14至20步,从而实现了更有效的标签生成与选择。

通过这些努力,Sana在保持与“Flux”等最新的高性能图像生成AI相当的竞争力的同时,实现了超过100倍的图像生成速度。开发团队表示,参数大小为6亿的“SANA-0.6B”甚至可以部署在配备16GB内存容量GPU的笔记本上,生成1024×1024分辨率的图像只需1秒钟。以下是Sana图像生成时间的比较图,参数大小为16亿的“SANA-1.6B”可以1.2秒生成1024×1024的图像,15.9秒生成4096×4096的图像。此外,SANA-0.6B可以0.9秒生成1024×1024的图像,仅需9.6秒即可生成4096×4096的图像。

以下是一张Sana与各类图像生成AI的性能比较表,显示Sana的各个模型在生成速度和处理量上都远超其他图像生成AI。

目前,Sana的源码尚未公开,但预计将在近日内发布。