首页 > 资讯 > 正文

【独家焦点】GAN卷土重来：10亿参数的GigaGAN效果堪比扩散模型

2023-04-10 20:00:43 来源：程序员客栈

(资料图片仅供参考)

点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

自从 DALL·E 2 之后，在图像生成方面扩散模型替代GAN成了主流方向，比如开源的文生图模型stable diffusion也是基于diffusion架构的。近日， Adobe研究者在论文Scaling up GANs for Text-to-Image Synthesis提出了参数量为10亿（1B）的GAN模型：GigaGAN，其在文生图效果上接近扩散模型效果，而且推理速度更快，生成512x512大小图像只需要0.13s，生成16M像素图像只需要 3.66s。同时GigaGAN也支持latent空间的编辑功能，比如latent插值，风格混合，以及向量运算等。

GigaGAN

改进了StyleGAN架构，采用两阶段训练策略：一个是64x64的图像生成器和一个512x512的图像超分2器，其图像生成器架构如下所示（这里也是采用CLIP text encoder来引入text condition）：

GigaGAN

在 LAION2B-en和 COYO-700M数据集上训练，其在COCO数据集上的FID达到9.09，超过stable diffusion 1.5，推理速度比stable diffusion快20倍多（2.9s vs 0.13s）：

GigaGAN

除了文生图能力，还可以实现可控的合成，比如风格混合，如下图所示：

更多效果图和技术细节见论文https://arxiv.org/abs/2303.05511和网站https://mingukkang.github.io/GigaGAN/

标签：

[责任编辑：news001]

(本文章版权归凤凰网所有，未经授权，不得转载)

为您推荐

汽车

财经

论坛

家电

“双11”促销陆续展开多种取暖小家电走俏扬城

“双11”促销陆续展开多种取暖小家电走俏扬城奥维云网发布小电市场三季度报告电饭煲线上首次负增长双十一首轮爆发期苏宁易购智能家电销售额环比增长143% 格力、美的、海尔三季报发布白电巨头仍有改善空间查看更多

【独家焦点】GAN卷土重来：10亿参数的GigaGAN效果堪比扩散模型

为您推荐

汽车

财经

论坛

品牌