英伟达发布Fugatto和Edify 3D:大胆进军生成式AI

作者
ALQ Capital, CTOL Editors - Xia
10 分钟阅读

Fugatto:AI驱动的音频生成与操控

英伟达的最新模型Fugatto是一款复杂的工具,设计用于生成和操控各种形式的音频——从音乐到语音口音再到新颖的音效。Fugatto不仅仅是一个AI模型;它是声音世界中创意和探索的门户。

Fugatto的功能

  • 音乐生成:Fugatto能够根据简单的文本提示创建音乐,使音乐制作人能够快速原型化歌曲创意。这对于希望高效实验风格和变体的音乐制作人来说可能是一个游戏规则的改变。

  • 音频操控:该模型可以添加或移除现有音轨中的乐器,调整声音中的情感音调,或创建以前未听过的声音。想象一下,修改广告配音中的口音以适应不同地区,或改变情感表达以匹配特定受众。

  • 新颖音效创建:Fugatto最独特的功能之一是其能够创建不寻常的音效组合——例如喇叭吠叫或萨克斯喵叫——为创意专业人士提供他们可能从未想过的工具。

  • 多样的输入选项:Fugatto接受文本提示和音频文件,以生成或转换声音。这使其成为希望以创新方式将创意愿景变为现实的职业人士的理想工具。

Fugatto的技术基于25亿个参数构建,其训练利用了32个英伟达H100张量核心GPU。英伟达采用了一种称为ComposableART的技术,允许模型组合以前未链接的元素以创建新事物。

Fugatto的应用

  1. 音乐制作:制作人可以快速迭代和编辑歌曲创意,自由实验风格、声音和乐器。
  2. 广告:广告公司可以修改配音中的不同口音或情感音调,以针对不同地区的受众。
  3. 视频游戏开发:游戏开发者可以使用Fugatto动态调整音频,增强游戏中的动作音效。
  4. 电影音景:电影制片人可以使用Fugatto创建独特的音景,为电影增添一层原创性。

尽管Fugatto具有强大的潜力,但英伟达尚未宣布其商业可用性。然而,它标志着英伟达在重塑AI音频工具方面迈出了重要一步。

Edify 3D:AI驱动的3D资产生成

Edify 3D是英伟达的尖端AI模型,可在短短两分钟内将文本描述或图像转换为高质量的3D模型。目标用户包括游戏开发者、电影制片人和扩展现实创作者,Edify 3D有望显著简化3D资产创建过程。

Edify 3D的关键功能

  • 多样的输入:Edify 3D接受文本提示和参考图像以生成详细的3D模型,为艺术家和开发者提供灵活性。
  • 高质量输出:生成的模型具有干净的形状拓扑、4K纹理和优化的UV贴图,可由3D艺术家进行修改。
  • 快速生成:在不到两分钟的时间内,Edify 3D可以生成高质量的3D资产——加快工作流程并实现快速原型设计。

该模型的底层技术包括多视图扩散模型和基于Transformer的架构的组合,共同生成详细的3D图像并将其重建为可用的3D资产。这一复杂过程结合了RGB生成、表面法线映射和增强分辨率的上采样技术。

行业应用

  • 游戏开发:Edify 3D使开发者能够即时创建3D资产,加速游戏设计过程。
  • 电影制作:电影制片人可以使用Edify 3D快速原型化独特的模型和虚拟环境。
  • 产品设计:像美泰这样的公司已经在使用该技术进行玩具设计原型化,表明其在多个行业的潜力。
  • 虚拟制作:合作伙伴如Shutterstock和Getty Images已开始利用Edify 3D生产可扩展的虚拟资产。

Edify 3D有望彻底改变3D建模工作流程,提供比以往更快、更容易创建高质量3D资产的工具。

英伟达的战略:直接进入客户领域

英伟达开发Fugatto和Edify 3D等模型代表了其战略方向的转变——这可能使其直接与包括OpenAI、微软和谷歌在内的客户竞争。历史上,英伟达一直是推动者,提供使大规模AI模型成为可能的硬件(GPU)。现在,英伟达正在进入软件领域,旨在不仅成为供应商,还要成为AI价值链中的核心角色。

英伟达此举的战略驱动因素

  • 进入高利润市场:通过扩展到AI模型创建,英伟达可以进入通常提供更高利润率的软件市场,这有助于多元化收入来源,超越硬件销售。
  • 垂直整合:英伟达开发Fugatto和Edify 3D等模型代表了垂直整合,使其能够控制基础设施层(硬件)和应用层(软件),从而捕获更多价值,同时减少对外部合作伙伴(如OpenAI、微软和谷歌)的依赖。
  • 利用生成式AI的增长:音频、3D资产创建等领域的生成式AI预计将呈指数级增长,英伟达正定位自己以在这些新兴领域中捕获大量市场份额。
  • 加强生态系统锁定:通过提供硬件和尖端软件,英伟达可以加强其生态系统,使其更难让客户转向替代供应商(如AMD或谷歌TPU)。

市场影响和竞争格局

  1. 对AI巨头(OpenAI、微软、谷歌)的压力:英伟达进入生成式AI领域直接与OpenAI和谷歌DeepMind等公司竞争,这些公司传统上依赖英伟达的GPU进行训练。这些公司现在可能将英伟达视为既是关键合作伙伴又是竞争对手。

    • 像微软这样在产品中大量集成OpenAI模型的公司(如Azure AI、Copilot),在与英伟达建立自己的模型套件时,可能会面临复杂的关系动态。
  2. 硬件需求的颠覆:通过在内部构建高级模型,英伟达可能抵消了OpenAI或谷歌等客户传统上生成的GPU需求,这些客户可能会选择多元化其硬件依赖(如转向AMD或投资于专有AI加速器)。

  3. 小型玩家的机会:英伟达与其客户的竞争可能推动小型公司和初创企业探索替代GPU供应商或开源AI模型,以避免与其供应商直接竞争。

关键利益相关者和他们的反应

  • 英伟达的客户(OpenAI、微软、谷歌、Adobe等):英伟达的客户可能会继续利用英伟达GPU进行训练和部署,因为其性能无与伦比。然而,他们可能会加速开发自己的硬件解决方案(如谷歌TPU、AWS Trainium)或与竞争对手(如AMD)合作。

    • OpenAI等公司可能会加倍努力开发英伟达难以复制的专有、可微分模型。
  • 投资者和金融市场:投资者可能会将英伟达进入模型创建视为大胆且战略性的举措,以捕获更多价值并保护自己免受硬件商品化风险的影响。然而,任何对其最大客户疏远的看法都可能引发对收入集中和依赖风险的担忧。

  • 创意产业(音乐、游戏、电影):Fugatto和Edify 3D等工具可以民主化创意过程,使小型团队能够更快地原型化和输出更高品质的作品。大型工作室可能会将其视为一把双刃剑:虽然降低了成本,但也增加了高品质输出的可及性,削弱了竞争优势。

  • 监管机构:英伟达进入AI内容生成领域可能会引起监管关注,特别是在音频和3D资产生成的伦理考虑、知识产权风险和竞争实践方面。

新兴趋势

  1. AI即服务(AIaaS)的整合:英伟达不断增长的基

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明