谷歌DeepMind的Fluid：使用连续标记在AI图像生成方面的突破

Google DeepMind的Fluid：使用连续标记的AI图像生成突破

在人工智能领域的一项突破性进展中，Google DeepMind的研究人员推出了Fluid，这是一种革命性的文本到图像生成模型，使用连续标记和随机顺序生成实现了最先进的性能。该研究于2024年10月发布，展示了自回归图像生成方面的重大进展，挑战了传统的人工智能视觉内容创建方法。

发生了什么

Google DeepMind的研究团队，由Lijie Fan和来自MIT的合作伙伴领导，进行了一项广泛的研究，探讨为什么自回归模型在视觉处理方面没有像在语言处理方面那样有效地扩展。团队确定了影响性能的两个关键因素：标记表示（离散与连续）和生成顺序（随机与光栅）。

通过大量的实验和创新，研究人员开发了Fluid，这是一个105亿参数的模型，在MS-COCO 30K上实现了创纪录的零样本FID分数6.16，在GenEval基准测试中获得了0.69的总体分数。这一性能超过了之前的最先进模型，包括DALL-E 3和Stable Diffusion 3，证明了结合连续标记和随机顺序生成的有效性。

关键要点

研究表明，在图像生成任务中，连续标记始终优于离散标记，提供了更高的视觉质量和更好的图像信息保留。这种方法消除了传统系统中向量量化方法通常带来的显著信息损失。

随机顺序生成在处理全局图像结构和改进文本到图像对齐方面特别有效。该系统在多对象生成场景中表现出色，解决了之前图像生成模型的一个常见限制。

也许最显著的是，研究表明验证损失与模型大小之间表现出一致的幂律缩放，类似于在语言模型中观察到的现象。这种缩放行为与验证损失和评估指标之间的强相关性相结合，表明更大的模型可能会取得更好的结果。

深入分析

该研究挑战了传统观念，证明了连续标记表示显著优于传统的离散标记化方法。改进是显著的，离散模型中的PSNR从26.6增加到连续模型中的31.5，代表了图像质量保留方面的重要进步。

生成顺序成为模型性能的关键因素。随机顺序生成与双向注意力相结合，使模型能够在整个生成过程中调整全局结构，而光栅顺序生成在处理复杂场景时显示出局限性。随着模型大小的增加，这种差异变得更加明显。

研究中揭示的缩放动态特别有趣。虽然所有变体在验证损失中都表现出幂律缩放，但只有使用连续标记的模型在视觉质量上保持一致的改进。模型大小与生成能力之间的强相关性表明，进一步缩放可能会带来更好的结果。

Google DeepMind的Fluid的引入在行业观察者中引起了不同的反应，许多人认为这是文本到图像生成领域的一大飞跃。专家指出，Fluid使用连续标记和随机顺序生成是独特的，增强了图像质量并缓解了早期模型的一些关键限制。世界经济论坛强调，生成式人工智能，包括Fluid等进展，正在改变教育、媒体和医疗等行业，但也带来了重大的伦理和治理挑战。WEF强调需要框架来负责任地管理人工智能，特别是在Fluid等能力扩展了滥用和错误信息的潜在风险时。

与此同时，人工智能社区内部对领域的快速进展持有一份健康的怀疑态度。DeepMind的联合创始人Demis Hassabis对人工智能领域的资金涌入表示担忧，认为这可能导致市场炒作。他警告说，夸大的声明可能会掩盖真正的进展，指出过去的人工智能发布往往仓促上市，结果往往不尽如人意。尽管有这些担忧，Hassabis强调了Fluid等模型巨大的潜力，只要投资集中在有意义、符合伦理的技术开发上，而不是短期收益。这两种观点突显了人工智能行业快速发展的前景和陷阱，Fluid成为持续辩论的焦点。

你知道吗

Fluid系统展示了惊人的效率，每张图像每TPU v5生成时间为1.571秒，使用32个TPU上的2048批量大小。该模型的架构包含多达34个变换器块，代表了图像生成计算效率的重大进步。

系统的训练基础设施利用了WebLI数据集，并采用了47亿参数的T5-XXL编码器进行文本处理。这种组合，加上连续标记建模的独特扩散损失方法，使得图像生成任务中前所未有的性能成为可能。

最值得注意的是，Fluid仅用3.69亿参数就实现了比之前使用高达200亿参数的模型（如Parti）更好的性能。这一效率突破表明视觉人工智能系统缩放的新方向，可能弥合视觉和语言模型能力之间的长期差距。

这一进展代表了人工智能图像生成领域的一个重要里程碑，为更高效和高质量的视觉内容创建系统提供了新的可能性。研究表明，图像生成的未来在于连续标记和随机顺序生成的结合，可能会彻底改变我们如何进行视觉人工智能开发。