08论坛 > AI教程资讯 > CogView4:全球首个支持生成汉字的开源文生图生成模型

CogView4:全球首个支持生成汉字的开源文生图生成模型

作者:啊哈哈哈 来源:08论坛 时间:2025-04-11 16:43:50

CogView4是什么?

CogView4是由智谱AI于2025年3月4日发布的首个支持中英双语提示词的开源文生图ai模型,也是全球首个支持生成汉字的开源文生图模型,尤其擅长理解和遵循中文提示词,能在画面中生成汉字,非常适合做广告、短视频创作等。

CogView4-logo.webp

CogView4主要特点

支持中英双语输入:CogView4能够处理任意长度的中英文提示词,并生成高质量图像。

汉字生成能力:该模型可以将汉字自然融入图像中,特别适合广告、短视频等创意领域。

任意分辨率图像生成:支持生成512×512到2048×2048范围内的任意分辨率图像。

强大的语义对齐能力:在DPG-Bench基准测试中,CogView4的综合评分排名第一,展现了其在复杂语义对齐和指令跟随方面的卓越性能。

技术优化:采用二维旋转位置编码(2D RoPE)和多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。

显存优化与高效推理:通过模型CPU卸载和文本编码器量化等技术,显著降低了显存占用。

开源与生态支持:遵循Apache 2.0协议,后续将支持ControlNet、ComfyUI等生态集成,并推出完整的微调工具包。

CogView4.webp

CogView4技术

架构:基于扩散模型结合Transformer架构,使用60亿参数。

文本编码器:采用双语GLM-4编码器,通过中英双语图文对进行训练。

显存优化:通过模型CPU卸载和文本编码器量化等技术,降低显存占用,提升推理效率。

CogView4应用场景

CogView4特别适合需要中文创意的领域,例如广告设计、短视频制作、海报创作等,能够将中英文字符自然融入画面。

广告创意:生成带有特定文字的海报、文案配图等。

短视频制作:根据视频脚本或创意描述生成相应画面。

艺术创作:辅助艺术家和设计师生成具有特定风格和意境的图像。

教育领域:生成与教学内容相关的图像,如古诗文意境图。

游戏开发:根据游戏剧情和角色设定生成游戏画面和角色形象。

其他创意领域:如漫画创作、插画设计、品牌宣传等。

CogView4使用

1. 在线体验

HuggingFace:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

ModelScope:https://modelscope.cn/models/ZhipuAI/CogView4-6B

2. 本地部署

如果需要在本地使用CogView4,可以通过以下步骤进行部署:

获取模型代码:访问CogView4的GitHub仓库,地址是:https://github.com/THUDM/CogView4。

硬件要求:CogView4模型需要较高的显存,最低推荐使用12GB显存的GPU。

安装依赖:根据GitHub仓库中的说明,安装必要的Python依赖和环境。

运行模型:按照仓库中的指南启动模型,输入提示词生成图像。

3. 模型微调

智谱计划推出CogView4的微调工具包,用户可以根据自己的需求对模型进行定制化训练。例如,可以针对特定的广告风格或品牌需求进行微调,以生成更符合需求的图像。

4. 通过Hugging Face使用

Hugging Face模型库地址:https://huggingface.co/THUDM/CogView4-6B。