笔记本也能生成4096x4096图片?SANA轻松生成高分辨率图像!
创始人
2024-10-19 08:20:37

NVIDIA、麻省理工学院 (MIT) 和京都精华大学的研究团队发布了一款名为“Sana”的图像生成AI,它可以在几秒钟内生成分辨率高达4096×4096的图像。

以下是用Sana实际生成的图像范例。使用“astronaut in a jungle, cold color palette, muted colors, detailed,8k(丛林中的宇航员,冷色系,柔和的颜色,精细,8K)”的提示词,可以生成这样的图像:

使用“a cyberpunk cat with a neon sign that says“SANA”(一只带有写着“SANA”的霓虹灯的赛博庞克猫)”的提示词生成的图像是:

输入“portrait photo of a girl, photograph, highly detailed face, depth of field(女孩的肖像照片,写实,非常细致的脸部,景深)”的提示词,则生成了逼真的人物图像:

根据Sana的开发团队介绍,相较于传统只能压缩至8倍的自动编码器(Autoencoder),Sana能通过对最大32倍压缩的自动编码器进行训练,进而有效减少潜在标记的数量,实现高效的训练和4K超高分辨率图像的生成。

此外,Sana使用一个名为“Gemma”的语言模型作为文本编码器,专门负责解码器部分,这强化了对提示词的理解与推理表现。不同于以往的T5模型,Gemma具有更强的文本理解能力,这能在应对训练不稳定性时,改善图像与文本的对应关系。同时,为了减少采样步骤,Sana引入了名为“Flow-DPM-Solver”的机制,这使得采样步骤从“Flow-Euler-Solver”的28至50步减少到14至20步,从而实现了更有效的标签生成与选择。

通过这些努力,Sana在保持与“Flux”等最新的高性能图像生成AI相当的竞争力的同时,实现了超过100倍的图像生成速度。开发团队表示,参数大小为6亿的“SANA-0.6B”甚至可以部署在配备16GB内存容量GPU的笔记本上,生成1024×1024分辨率的图像只需1秒钟。以下是Sana图像生成时间的比较图,参数大小为16亿的“SANA-1.6B”可以1.2秒生成1024×1024的图像,15.9秒生成4096×4096的图像。此外,SANA-0.6B可以0.9秒生成1024×1024的图像,仅需9.6秒即可生成4096×4096的图像。

以下是一张Sana与各类图像生成AI的性能比较表,显示Sana的各个模型在生成速度和处理量上都远超其他图像生成AI。

目前,Sana的源码尚未公开,但预计将在近日内发布。

相关内容

热门资讯

CAC2026举办,完美世界持... 5月24日,2026年反恐精英亚洲邀请赛(CAC2026)在上海源深体育中心落幕。卫冕冠军Legac...
这个在Steam闷声发财的新兴... 最近无聊逛Steam,陀螺君注意到了一个颇有意思的细分游戏品类:“傻瓜式点击游戏”。 这类游戏的玩法...
向苏超取经,外地观众超9成,原... “我们把原来的冬冠改名为挑战者杯,希望能激励更多挑战者去拼搏竞逐,所以我们想看到的故事,谜底就在谜面...
美少女卡牌《卡厄思梦境》首发、... 阿里巴巴灵犀互娱旗下游戏平台 各位玩家好啊,欢迎来到本期的「新游抢先报」!每周,九酱都会筛选一批有潜...
原创 U... Uzi回应送老婆180W项链,这是生小孩应得的,直播哭穷被吐槽,在电竞圈,“高收入”和“高消费”一直...