原创 首创强化学习框架拿下!测试SOTA成绩,这款图像模型太能打
创始人
2025-11-09 04:20:46

兔展智能和北京大学的UniWorld团队新推出的UniWorld-V2图像编辑模型,真能让不少做设计的朋友眼前一亮。

之前我试过用NanoBanana执行“把中间白色衣服戴口罩女生的手势改成OK”的指令,本来想看看它的细节处理能力,但后来发现它压根没get到指令的核心意图。

反观UniWorld-V2,完成这个修改任务堪称完美。

单这一轮对比,就能看出后者在指令理解上的优势有多明显。

这款模型不光细节修改厉害,还是个懂中文的“高手”。

它背后的UniWorld-R1框架更是藏着大玄机,这可是业内首个把强化学习策略优化用在统一架构图像编辑模型上的框架。

今天就跟大家好好聊聊这个既能精准修图又懂中文的模型到底藏着多少门道。

UniWorld-V2的三板斧解决中文与精细编辑痛点

现在不少图像编辑模型处理英文指令还算顺手,可碰到中文尤其是复杂艺术字体时就容易掉链子。

但UniWorld-V2在这方面做得相当到位,论文里的海报编辑示例就能说明问题。

你只需给出一句指令,它就能精准渲染出“月满中秋”“月圆人圆事事圆”这类笔画复杂的艺术字体,字体清晰语义也没偏差。

做新媒体海报的朋友怕是最有体会,以前找字体改文案要折腾半天,现在靠它一句话就能搞定,效率提升可不是一星半点。

它的空间编辑控制力也让人惊喜。

用户画个红框就能指定编辑区域,模型会严格照着这个范围做事。

比如让它把鸟移出红框,它不会改动框外任何元素,也不会让移出的鸟显得突兀。

如此看来,这种精准的空间控制,对需要局部修图的专业人士来说简直是刚需。

光影融合方面它同样表现出色。

给场景重新打光的指令,很多模型处理后会出现画面割裂的情况,编辑的部分和原场景格格不入。

UniWorld-V2却能让调整后的物体自然融入场景,光影过渡特别和谐。

这对经常做场景合成和人像精修的从业者来说,能省去大量后期调整的时间。

这款模型能有这么好的表现,和它的前代产品分不开。

UniWorld-V1是业内首个统一理解与生成的模型,它的开源时间比谷歌NanoBanana早了三个月。

正是有了V1打下的基础,V2才能在细节处理和中文适配这些方面实现突破。

它在GEdit-Bench拿到7.83分,超过了GPT-Image-1的7.53分,ImgEdit上4.49分的成绩更是领跑所有开源和闭源模型,这样的测试结果足以证明它的实力。

UniWorld-R1框架撑起模型优势的核心底气

能让UniWorld-V2有这么强的表现,UniWorld-R1框架功不可没。

传统图像编辑模型大多依赖监督微调技术,这种方式很容易让模型对训练数据过拟合。

遇到训练数据之外的编辑需求,模型的处理效果就会大打折扣,泛化能力特别弱。

而且编辑任务种类太多,行业里一直没有通用的奖励模型,模型优化方向始终不明确。

UniWorld-R1框架正好解决了这些问题。

它是业内首个基于强化学习的统一架构图像编辑后期训练框架,采用的扩散负向感知微调技术很有特点。

这种技术不用做似然估计,训练效率大幅提高,还能使用高阶采样器。

本来想这种跨领域的技术应用可能会有适配问题,但后来发现它在图像编辑领域的适配效果远超预期。

更让人意外的是它对奖励模型的创新。

它直接用GPT-4V这类多模态大语言模型当免训练奖励模型,不是只靠单一评分,而是利用模型输出的logits提供精细化隐式反馈。

很显然,这种方式能让模型更准确地理解人类的编辑意图,调整起来也更有方向。

这个框架的工作流程其实不复杂,主要分三步。

先进行采样,再由多模态大语言模型评分,最后通过扩散负向感知微调完成优化。

这三个环节一步步推进,慢慢让模型向最优编辑策略靠拢。

这个框架还特别通用,把它用在FLUX.1-Kontext和Qwen-Image-Edit上,都让这两个模型的性能明显提升。

FLUX.1-Kontext的分数从3.71升到4.02,超过了它的Pro版本。

Qwen-Image-Edit的分数也从4.35涨到4.48,性能直逼顶级闭源模型。

在域外测试中,这些模型的泛化能力也得到了增强,这说明这个框架不是只适配单一模型,而是能给整个图像编辑领域提供助力。

研究团队还做了人工偏好研究,参与者在指令对齐和图像质量两个维度对比后,更偏爱经这个框架微调后的模型。

虽说官方Pro版本在图像质量上稍占优势,但微调后的模型在指令遵循上的优势特别突出。

如今,这个框架和模型的论文、代码都已经在GitHub和HuggingFace上开源了。

这种开源举措特别值得肯定。

现在很多小众团队想做图像编辑技术研发,却苦于没有基础资料。

这些开源内容能帮他们少走很多弯路,也能推动整个行业更快发展。

UniWorld-V2的出现,不光多了一个好用的图像编辑工具,更给行业提供了新的研发思路。

强化学习与图像编辑的结合,多模态大语言模型的灵活运用,这些创新点都值得业内深入研究。

相信随着这些技术的不断完善,以后我们用AI修图会越来越省心,中文场景下的图像编辑体验也会越来越好。

相关内容

热门资讯

莱恩过滤取得油水分离滤芯及滤清... 国家知识产权局信息显示,浙江莱恩过滤系统有限公司取得一项名为“一种油水分离滤芯及滤清器”的专利,授权...
迈向完全自动驾驶:Waymo介... 来源:市场资讯 (来源:IT之家) IT之家 2 月 14 日消息,Alphabet 旗下自动驾驶企...
法国女宇航员阿登诺搭乘“龙”飞... 中新网巴黎2月14日电 (记者 李洋)法国女宇航员索菲·阿登诺(Sophie Adenot)当地时间...
三国杀:常驻武器没意思?看看这... 大家好,这里是你们的老朋友手杀菌!三国杀这款游戏发展了这么多年的时间,唯一让大家诟病的就是卡牌,没有...
华为申请通信方法专利,可以获得... 国家知识产权局信息显示,华为技术有限公司申请一项名为“通信方法、装置及存储介质”的专利,公开号CN1...