谷歌突破性技术利用丰富的人类反馈提升文本到图像生成

谷歌突破性技术利用丰富的人类反馈提升文本到图像生成

作者
CTOL Editors
5 分钟阅读

新型文本转图像生成技术通过人类反馈提升质量

来自谷歌研究院及合作机构(加州大学圣地亚哥分校、南加州大学、剑桥大学和布兰迪斯大学)的研究人员开发了一种革命性的方法,通过丰富的人类反馈来提升文本转图像(T2I)生成模型的性能。传统的模型如Stable Diffusion和Imagen在根据文本描述生成高分辨率图像方面已取得显著进展,但它们常遇到诸如图像瑕疵、与文本不匹配及审美质量低下等问题。该新方法在一篇荣获CVPR 2024最佳论文奖的论文中详细介绍,引入了一个包含18,000张图像的人类反馈数据集(RichHF-18K)。此数据集包含图像中问题区域的详细标注及文本提示中被错误呈现或遗漏的词汇,用于训练一个名为Rich自动人类反馈(RAHF)的多模态变换器模型。

关键要点

  • 丰富的人类反馈:RichHF-18K数据集包含图像上突出显示不合理或不匹配区域的点标注,以及文本提示中被错误呈现或缺失的词汇标签。
  • 增强的模型训练:RAHF模型利用这种详细反馈预测新图像中的问题,提高生成图像的整体质量和匹配度。
  • 泛化与应用:图像质量的提升不仅限于收集数据集的模型,训练后的模型展现出跨不同T2I模型的泛化能力。
  • 开源数据集:RichHF-18K数据集将公开发布,鼓励该领域的进一步研究和开发。

分析

新方法基于先前在大语言模型中取得成功的人类反馈强化学习(RLHF)概念。然而,与使用简单的人类评分不同,这种方法收集了详细标注,标记出生成图像中与文本描述不符或不合理的特定区域。通过用这种丰富反馈训练多模态变换器,模型能自动预测并纠正未来图像生成中的这些问题。

RAHF模型的架构通过视觉变换器(ViT)和T5X文本编码器整合了视觉和文本信息。这使其能生成识别问题区域和文本提示不匹配序列的热图。模型的预测可用于微调图像生成模型、选择高质量训练数据及创建用于修复问题区域的掩码,从而显著提升图像质量和文本匹配度。

这一新方法带来的进步不仅对依赖高质量图像生成的行业如娱乐、广告和设计具有重大意义。随着生成图像的准确性和审美性的提高,企业能创造更具吸引力和视觉冲击力的内容。利用丰富反馈微调模型的能力可导致更高效的工作流程和成本节约,减少手动修正需求并增强内容创作的自动化。

此外,将RichHF-18K数据集作为开源资源发布,很可能会推动该领域的进一步创新和发展,导致更先进的T2I模型。这可能带来更广泛的应用,从虚拟现实环境到个性化营销材料,高质量和上下文准确的图像至关重要。

你知道吗?

你知道传统的文本转图像模型常常生成带有显著缺陷的图像,例如人类有超过五个手指或悬浮物体吗?新的丰富人类反馈方法旨在通过提供帮助模型从错误中学习的详细标注来解决这些问题,生成更真实和匹配的图像。这一突破不仅提升了视觉质量,还确保生成的图像更紧密地与预期描述相符,使其在各种应用中更实用和可靠。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯