☰

AIGC行业专题报告：从文生图到文生视频_技术框架与商业化

文生图和文生视频的底层技术框架较为相似，主要包括GAN、自回归和扩散模型三大路径，其中扩散模型（Diffusion model）为当前主流生成模型，多个指标对比下综合占优，能在较为可控的算力成本和较快的速度下生成具备多样性、高质量的图像：

①图像质量：扩散模型>自回归模型>GAN模型。FID值（Fréchet Inception Distance score）是用于评估模型生成的图像质量的指标，是用来计算真实图像与生成图像的特征向量间距离的一种度量。

FID值越小，可以认为图像质量在一定程度上越优。从不同模型的FID得分来看，扩散模型平均数较小，反应图像质量较高。

②参数量：自回归模型>扩散模型>GAN模型。GAN的参数量一般在千万级别，整体较为轻巧，扩散模型的参数量在十亿级别，自回归模型在十亿到百亿级不等。

③生成速度（由快到慢）：GAN模型>扩散模型>自回归模型。生成速度与参数量级为负相关关系。

④训练成本：自回归>扩散模型>GAN模型。由于参数量级较小，GAN模型训练成本小且开源模型多，仍具备一定优势。而自回归模型参数量级较大，整体训练成本更高。

在单张A100GPU下，120亿参数的DALL-E需要18万小时，200亿参数的 Parti更是需要超过100万小时，扩散模型参数量在十亿级别，整体训练成本较为适中。

来源：国海证券

若需获取本篇完整版资源，请关注公众号《侠说》

报告内容节选如下：

资料下载方式：公众号《侠说》，www.guotaixia.com

AIGC智能社媒创作助手、GPT3.5/4.0体验.....Al方案鸭：aiduck.art

相关资讯