首页能源头条推荐资讯详情
媲美Nano Banana Pro!南科大&阶跃星辰等开源真实世界图像恢复之王RealRestorer
发布者:
来源:
标签:
作者:Yufeng Yang, Xianfang Zeng, Zhangqi Jiang等
解读:AI生成未来
该工作由南方科技大学、阶跃星辰和中科院深圳先进院等机构联合完成,并已同步发布论文、项目页、模型和基准测试。
亮点直击
真实世界图像修复,不再只停留在“合成退化”,而是做一个更通用、更能落地的真实世界图像修复模型。
基于大规模图像编辑模型改造,兼顾“修得干净”和“内容不跑偏”,重点保留原图的场景结构、语义内容和细粒度细节,避免“修复过头”“内容变形”“语义漂移”等常见问题。
数据、模型、评测三位一体。论文不仅提出了模型本身,还构建了更贴近真实分布的数据生成流程,并推出了新的真实世界评测基准 RealIR-Bench,模型在开源方法中登顶。
总结速览
解决的问题
真实退化泛化差:传统图像修复方法往往在合成退化数据上训练和评估,一旦遇到真实拍摄中的复杂退化,泛化能力就会明显下降。
评测方式不够“真实”:很多修复任务依赖成对干净图像来算 PSNR、SSIM,但真实世界场景往往拿不到严格对齐的“真值图”,导致传统参考式指标并不能准确反映实际修复效果。
开源与闭源之间仍有明显差距:闭源图像编辑系统已经展现出较强的真实修复能力,但开源侧长期缺少一套可以媲美的方案。
提出的方案
核心框架:RealRestorer以开源图像编辑模型 Step1X-Edit 为基础,沿用其大规模 DiT 架构、QwenVL 文本编码器和 Flux-VAE 表征能力,只微调其中的 DiT 主干,将原本偏高层编辑的能力迁移到低层真实修复任务上。
核心思路:通过大规模的编辑模型的强大先验,配合合成退化数据和真实退化数据流水线,去训练一个强大的可以在真实世界场景泛化的图像修复模型。
关键技术点:
构建覆盖9类真实退化的大规模退化合成管线,引入更细粒度的噪声建模、分区域扰动和 web 风格退化过程,缩小合成分布与真实分布之间的差距。
额外采集真实退化图像,并借助高性能模型生成对应配对高质量无退化数据,以进一步贴近真实世界分布。
采用两阶段训练:第一阶段用约 100 万组合成退化数据做迁移训练,第二阶段再引入约 10 万组真实退化数据进行监督微调。并在第二阶段中使用 Progressively-Mixed 训练策略,保留少量合成数据,避免模型过拟合真实样本分布、损失跨任务泛化能力。
应用的技术
大规模图像编辑模型迁移。大规模图像编辑模型拥有更强的语义先验和内容建模能力,因此更有潜力应对复杂真实退化。
合成+真实混合数据构建。作者不是简单堆数据,而是同时使用合成退化对和真实退化对,以此兼顾可扩展性与真实性。
非参考评测基准。RealIR-Bench 不依赖配对真值图,而是引入 VLM 来评估 Restoration Score(RS),并结合 LPIPS 衡量内容一致性,最终得到综合的 Final Score(FS)。
达到的效果
开源SOTA:RealRestorer在 RealIR-Bench 上位居开源方法第一,并在总体排名中位列第三,并且非常接近顶级闭源模型。
多任务表现均衡:论文显示,RealRestorer在9类任务上都有较强表现,其中在去模糊和弱光增强上拿到最佳结果,在去摩尔纹上位列第二。整体上,它在开源模型中 5 项第一、2 项第二。
内容一致性更强:相比一些“修得很猛但内容跑偏”的生编辑模型方法,RealRestorer更加注重结构、语义和细节的保存,提升了真实应用中的可用性。
具备零样本泛化能力:除了论文重点覆盖的9类退化,作者还报告了对未见任务的 zero-shot 泛化能力,例如雪天去退化、老照片修复等场景。
方法
模型设计
RealRestorer基于 Step1X-Edit 进行微调,核心骨干为大规模 DiT,文本侧使用 QwenVL 编码器,图像则通过 Flux-VAE 映射到潜空间。训练时冻结 VAE 与文本编码器,仅微调 DiT 主体,把原本偏“生成/编辑”的能力,逐步迁移到“真实修复”任务上。
数据集构建
论文将训练数据分为两部分:
1. 合成退化数据(Synthetic Degradation Data)
从互联网收集干净图像,再对其进行高质量退化模拟。和传统简单退化不同,这套流程更加贴近真实拍摄中的复杂退化模式,并借助 SAM-2、MiDaS、VLM 和质量评估模型进行筛选与校验。
2. 真实退化数据(Real-World Degradation Data)
直接从网络采集真实退化图像,再生成对应的高质量参考图像,并通过 CLIP、水印检测、Qwen3-VL 以及低层指标做过滤和一致性检查,最后配合人工复核保证质量。
训练方案
RealRestorer采用两阶段训练:
第一阶段:迁移训练(Transfer Training) 用大规模合成退化对,把图像编辑模型的高层先验迁移到图像修复任务中,建立基础修复能力。
第二阶段:监督微调(Supervised Fine-tuning) 进一步引入真实退化数据,加强模型对真实复杂场景的适应能力。作者特别采用了渐进式混合训练,在二阶段训练的过程中加入部分合成退化数据对,让模型在靠近真实分布的同时,不丢掉合成数据带来的广泛泛化能力。
二阶段训练全程使用 1024×1024 高分辨率设置。
实验
RealIR-Bench 是完全由互联网采集的真实退化图像组成,共 464 张,覆盖9类退化,并通过人工过滤保证场景多样性、退化强度和图像质量。与传统“有真值”的合成测试集不同,它更强调真实环境下的修复能力。
评测方式:既看“修没修好”,也看“内容变没变”
论文没有只看 PSNR/SSIM,而是设计了两类互补指标:
R S(Restoration Score):衡量退化去除效果;
LPIPS/LPS:衡量修复前后内容一致性;
FS(Final Score):综合两者后的最终分数。
结果表现
实验表明,RealRestorer在 RealIR-Bench 上持续优于现有开源图像编辑模型,并取得与头部闭源系统接近的效果。
消融实验:两阶段训练不是“可选项”,而是性能关键
为了验证方案设计是否真的有效,作者对训练数据和训练阶段做了系统消融。结果显示,仅使用约 100 万组合成退化数据进行第一阶段训练时,模型虽然能够逐步学到基础修复能力,并在这一阶段达到 0.122 的 FS 峰值,但对复杂真实退化的泛化仍然不足,而且随着训练继续推进,还会因为合成数据分布有限而出现性能回落。
进一步引入约 10 万组真实退化数据后,模型在第二阶段能够快速超过第一阶段的最佳分数,并显著提升真实场景下的泛化能力。但如果继续在真实数据上训练过久,模型又会开始出现过拟合,因此作者采用了 early stopping 来控制最终 checkpoint。
作者还进一步比较了不同训练策略的差异。只用合成退化数据训练的模型,对复杂真实退化仍显得“修不干净”;只用真实退化数据训练的模型,则容易过拟合退化模式,出现物体形变、人物位置漂移、自然光源被误删、过度增强等问题。相比之下,RealRestorer 采用的两阶段方案在“退化去除能力”和“内容结构稳定性”之间取得了更好的平衡。
Progressively-Mixed 策略:防过拟合的关键一招
除了两阶段训练本身,论文还单独分析了 Progressively-Mixed 策略的作用。作者在第二阶段中保留少量合成退化数据,与真实退化数据混合训练,以避免模型过度贴合有限的真实样本分布。从可视化结果看,模型在结构一致性和内容保真方面也会更不稳定。换句话说,这个混合策略虽然简单,但对最终性能和观感都是真实有效的增益。
User Study:自动化指标和人眼判断基本一致
为了验证 RealIR-Bench 这套评测指标是否真的“符合人类直觉”,作者还做了用户研究。论文共招募 32 名参与者,对 5 个高表现模型生成的 3200 组结果进行排序评价,评价标准包括两项:一是修复质量,二是内容一致性。结果显示,从人工主观偏好来看,Nano Banana Pro 的第一名占比最高,为 32.02%;GPT-Image-1.5 排第二,为 23.83%;RealRestorer 以 21.54% 位列其后。这个排序趋势与论文中自动评测得到的总体结果基本一致,说明该 benchmark 和指标体系具备较好的可信度。
更进一步,作者还计算了自动指标与人工判断之间的相关性,包括 Kendall’s τ、Spearman 相关系数(SRCC)和 Pearson 相关系数(PLCC)。结果表明评价指标与人类感知之间达到了中等程度的一致性。对真实世界图像修复这类缺乏严格真值图的任务来说,这一点非常重要,因为它意味着 RealIR-Bench 不只是“能算分”,而是一定程度上能够反映真实用户的主观观感。
结论
RealRestorer的意义,不只是“又一个图像修复模型”,而是给开源社区补上了一块长期缺失的拼图: 一个面向真实世界、多退化统一、兼顾修复质量与内容一致性,并且配套完整 benchmark 的开源修复方案。 当然,RealRestorer也存在一些局限:由于基础模型本身需要 28 步去噪推理,计算成本仍然较高;面对镜子自拍、极端强退化、复杂物理一致性场景时,模型仍可能失效。
反馈举报
声明:以上信息仅代表发布者自身观点,并不代表本平台赞同其观点,也不代表本平台对其真实性负责。
大家都在看

广告
评论 0
网友评论仅供其表达个人看法,并不表明平台立场。全部评论
加载失败
总发布:238粉丝:0
相关推荐
- 加载失败
- 加载失败
- 加载失败
- 加载失败
- 加载失败
- 加载失败
- 加载失败
- 加载失败
新经济资讯
- 加载失败
- 加载失败







