英伟达新研究:“狗生猫,猫生万物”的多模态无监督图像转换
作者:啊哈哈哈 来源:ai08门户网 时间:2025-07-05 09:49:10
林鳞 编译整理
量子位 出品 | 公众号 QbitAI
英伟达最近的一项研究看起来有点神奇。
一张普通的猫咪图像,可以被转换成一只老虎、一头狮子或一只美洲豹。
还是一张普通的猫咪图,还能被转换成不同品种的狗。
这种实时转换技术不仅能用于图像,还能用于视频。
这是英伟达最新创造的一项技术。在最近发布的论文Multimodal Unsupervised Image-to-Image Translation中,研究人员提出了一种多模态无监督的图像到图像(image to image)转换框架。
这个框架的神奇之处在于,一张猫的图像可以同时转换成多种动物,能够进行一对多的图像转换,打破了原来一对一转换的限制。
△ “狗生猫,猫生万物”
△ 冬夏场景转换
此外,这个框架还支持用户通过提供示例样式的图像控制转换输出的风格。
这是一项有趣的技术,不仅能够帮助游戏开发者和电影制作者减少工作量和花费,还能让自动驾驶领域更快、更容易地产生多样化的训练数据。
△ 道路的冬夏转换
论文介绍
在论文Multimodal Unsupervised Image-to-Image Translation中,奈尔大学的Xun Huang、Serge Belongie联合英伟达的Ming-Yu Liu与Jan Kautz提出了一种多模态无监督的图像到图像转换问题的标准框架。
研究人员首先假设图像的潜在空间能够分解为内容空间和样式空间,之后再进一步假设,不同领域的图像内容空间相同,但样式空间不同。
为了将一张图像转换为指定领域的图像,研究人员在目标样式空间中将图像的内容代码和随机的样式代码重新组合。这样,内容代码编码的信息在转换过程中将被保留,而样式代码代表了与输入图像无关的剩余的变体。
通过抽取不同风格的代码,这个模型可以输出风格多样且多模态的图像。
实验表明,这个模型在建立多模态输出分布时非常高效,并且和目前最先进的方法相比图像质量更高。
△ 与现有的样式转换模型的对比
这并不是英伟达在图像转换领域的首次探索,这篇论文是在去年英伟达的NIPS论文Unsupervised Image-to-Image Translation Networks中提出的模型基础上改进的。
相关资料
论文地址:
https://arxiv.org/abs/1804.04732
代码和预训练模型获取地址:
https://github.com/nvlabs/MUNIt
— 完 —
“
更多资讯
热门文章
推荐对话
换一换- 人气排行
- 1 英伟达新研究:“狗生猫,猫生万物”的多模态无监督图像转换
- 2 内部信告别!阿里云首席科学家闵万里离职:中科大少年班天才,曾率队打造ET大脑
- 3 喷上它就能凭空打字!鲍哲南团队开发新型智能皮肤,可准确识别手部动作,打字手语不在话下
- 4 阿里平头哥首次交货!“让天下没有难造的芯片”
- 5 Ubuntu 19.10正式发布,更好地支持机器学习开发
- 6 AI已能按音乐风格填词,周杰伦又有御用作词了?|在线可玩
- 7 百度二次上市,三重价值
- 8 他是第一个因人脸识别错误被关监狱的人,证据仅仅是1张驾照照片
- 9 百度AI“杀入”新领域,我举双手支持!
- 10 上海AI专项资金拟支持单位公示:平头哥等企业入围