xLSTM 7B 将循环 AI 扩展到 70 亿参数,提高效率和速度

作者
Lang Wang
9 分钟阅读

xLSTM 7B:重新定义大语言模型,更快更省

AI 的新飞跃:循环神经网络挑战 Transformer

多年来,基于 Transformer 的架构一直主导着 AI 领域,从 OpenAI 的 GPT 模型到 Meta 的 LLaMA,无不以此为基础。但是,随着企业和研究人员将 AI 推向实时应用,Transformer 的局限性——尤其是其缓慢的推理速度和巨大的内存需求——变得越来越明显。因此,xLSTM 7B 应运而生。这是一个拥有 70 亿参数的循环语言模型,它挑战了现状,强调速度、效率和可扩展性

在大量优化的支持下,xLSTM 7B 通过使用循环记忆机制而不是传统的自注意力机制,为 Transformer 提供了一种替代方案。关键是什么?该模型提供随序列长度线性计算扩展恒定的内存使用量,使其有可能成为边缘 AI、经济高效的云部署和实时应用的颠覆者。


剖析 xLSTM 7B:有哪些新东西?

1. 将 xLSTM 扩展到 70 亿参数

由于难以扩展,循环神经网络在很大程度上被 Transformer 所取代。xLSTM 7B 改变了这种说法,它成功地将基于 RNN 的架构扩展到 70 亿个参数,证明了循环模型可以在最高水平上竞争。它在2.3 万亿个 token 的海量数据集上进行训练,是 xLSTM 在现代 AI 中的潜力的首次大规模展示。

2. 提高效率的架构优化

xLSTM 7B 相对于 Transformer 的最大优势之一是它专注于计算效率。以下几种架构改进推动了这种改进:

  • 后向上投影块: 与传统的 xLSTM 和 Mamba 架构不同,这种新的块结构提高了 GPU 效率并加快了计算速度。
  • 嵌入空间中的循环运算: 在嵌入维度内运行 mLSTM(内存增强 LSTM)可显著降低计算开销。
  • 前馈 MLP 层: 引入位置式前馈层可在不增加不必要复杂性的情况下提高 token 吞吐量。
  • 消除瓶颈: 通过消除通道式卷积、分块对角投影和可学习的跳跃连接,xLSTM 7B 确保每次运算都有助于提高速度和效率

3. 用于大规模训练的稳定性创新

扩展循环模型的一个主要缺点是训练期间的不稳定性。xLSTM 7B 通过以下几项稳定性增强功能解决了这个问题:

  • 使用 RMSNorm 而不是 LayerNorm 以改善梯度流。
  • 门软上限,以减轻极端的激活峰值。
  • 输入门偏置的负初始化,以增强模型的鲁棒性。

4. 使用融合 GPU 内核加速推理

推理速度是 AI 驱动型企业关注的一个关键问题,尤其是在聊天机器人、实时翻译和语音助手等对延迟敏感的应用中。xLSTM 7B 采用专门为循环推理设计的融合 GPU 内核,从而最大限度地减少内存传输并显著提高推理速度


有竞争力的性能:xLSTM 7B 的表现如何?

尽管 xLSTM 7B 与 Transformer 占主导地位的领域不同,但在语言建模和长上下文基准测试中,它提供了与类似大小的 Transformer 和基于 Mamba 的模型相当的性能。其主要优势包括:

  • 更快的推理速度,使其成为实时应用的可行选择。
  • 更低的内存占用,允许在边缘设备上部署,而无需 Transformer 模型的大规模 GPU 要求。
  • 持续的效率提升,尤其是在较长的序列中,Transformer 由于二次内存缩放而难以处理。

但是,与其他 7B 模型相比,xLSTM 7B 在排行榜上的表现仍然处于中等水平。虽然它在效率方面表现出色,但其在某些基准测试上的原始准确性略低于最先进的 Transformer 模型


商业和投资影响

1. 企业的成本和能源效率

运行大型语言模型的成本是 AI 采用的最大障碍之一。基于 Transformer 的模型需要大规模 GPU 集群,从而提高了云提供商和 AI 初创企业的支出。通过提供卓越的效率,xLSTM 7B 可以大幅降低推理成本,从而使 LLM 驱动的应用更易于访问。

此外,减少内存使用意味着降低能源消耗,这符合 AI 开发中的可持续性目标。

2. 实现边缘 AI 和低延迟应用

Transformer 在计算资源有限的边缘环境中步履蹒跚。xLSTM 7B 保持恒定内存使用量的能力使其非常适合移动设备、物联网应用和实时 AI 助手。这对以下行业具有深远的影响:

  • 医疗保健: 在便携式设备上进行更快、实时的 AI 诊断。
  • 金融: 低延迟交易机器人和欺诈检测系统。
  • 游戏和元宇宙: AI 驱动的 NPC 和实时语音交互。

3. Transformer 垄断的挑战者

如果 xLSTM 的进一步迭代继续提高性能,我们可能会看到 AI 开发中摆脱 Transformer 霸权的趋势。对于寻求昂贵的基于 Transformer 的解决方案的替代方案的企业,xLSTM 提供了一条通往可扩展的、经济高效的 AI 的可行途径。

4. 实时 AI 成为现实

由于 token 生成速度慢,当前的 LLM 生态系统难以满足实时应用的需求。xLSTM 7B 的循环结构允许快速响应时间,这可能会彻底改变以下应用:

  • 对话式 AI(实时聊天机器人互动)
  • 实时语言翻译
  • 个性化推荐引擎

对于开发 AI 驱动的客户服务或虚拟助手的公司,xLSTM 7B 为在保持性能的同时降低延迟提供了强有力的理由。


挑战与未来方向

虽然 xLSTM 7B 是向前迈出的重要一步,但仍然存在挑战:

  1. 性能权衡: 虽然推理速度得到了显著提高,但基于 Transformer 的模型在原始基准性能方面仍然领先。
  2. 新架构验证: xLSTM 仍处于早期阶段,需要更广泛的采用和进一步的完善才能证明其长期可行性。
  3. 扩展到 7B 以上: 未来的研究需要确定 xLSTM 是否可以在30B+ 参数模型上进行扩展,同时保持其效率优势。

尽管存在这些警告,xLSTM 7B 的成功强烈表明 AI 行业已准备好接受 Transformer 以外的替代方案。如果进一步优化,像 xLSTM 这样的循环架构可能会重新定义 LLM 的构建、训练和部署方式。


xLSTM 7B 不仅仅是另一个 LLM,它还挑战了 AI 基础设施的现状。凭借其卓越的推理效率和实时应用的潜力,它可以重塑企业采用 AI 的方式。

对于投资者和企业而言,这表明了一个超越以 Transformer 为中心的 AI 战略进行多元化投资的机会。无论 xLSTM 成为主导架构还是仅仅是一个强大的替代方案,有一点是明确的:AI 军备竞赛远未结束,效率是新的前沿领域。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明