苹果发布Ferret-v2:突破性AI重新定义跨平台UI交互和可访问性

苹果发布Ferret-v2:突破性AI重新定义跨平台UI交互和可访问性

作者
Jane Park
5 分钟阅读

发生了什么?

苹果公司发布了Ferret-v2,这是其先前模型Ferret的升级版本,专门设计用于改进跨多个平台的用户界面(UI)解释。Ferret-v2结合了三项重大创新,旨在增强其在跨设备交互中的能力,为移动和网页界面提供了新的可能性。这些创新包括高分辨率定位以实现更清晰的视觉理解、多粒度编码以丰富上下文理解,以及一种新的三阶段训练范式,专注于高分辨率图像的密集对齐。这些进步使Ferret-v2在多模态大型语言模型(MLLMs)中处于领先地位,在各种性能指标上超越了现有竞争对手。

该模型集成到苹果的生态系统中,提供了突破性的改进,包括能够在iPhone、iPad、Android平台、网页浏览器甚至Apple TV等设备上运行。Ferret-v2在UI元素识别方面的高性能得分,强调了苹果在消费技术中对自适应AI的承诺。因此,苹果希望推动用户交互和可访问性的边界,使Ferret-v2成为下一代智能多模态应用的关键组成部分。

关键要点

  1. 增强的视觉处理:Ferret-v2的“任意分辨率”定位能力使模型能够以更精细的细节解释高分辨率图像,使其在处理各种屏幕类型的UI元素时更加灵活。

  2. 多粒度编码:结合DINOv2这一强大的编码器,使Ferret-v2能够处理全局和详细的视觉信息,丰富其对用户意图的理解。

  3. 跨平台可用性:凭借令人印象深刻的UI识别得分,Ferret-v2在iPad上达到了68%的准确率,在Android设备上达到了71%,确立了其在跨平台UI交互中的领先地位。

  4. Siri整合的潜力:苹果的CAMPHOR框架可以将Ferret-UI的高级能力与Siri整合,使虚拟助手能够通过语音命令执行复杂任务和导航应用程序。

深入分析

Ferret-v2不仅仅是一个增量更新——它代表了苹果在创建能够管理详细UI交互的强大AI方面的重大飞跃。模型在定位、编码和训练方面的三重增强,为其理解和响应视觉提示带来了新的精确度,特别是在移动界面上。

最显著的升级之一是多粒度视觉编码,由DINOv2实现。该编码器使Ferret-v2能够掌握图像的细粒度和广度方面,使其能够更清晰地区分不同的UI元素,如图标、文本字段和菜单。这种处理复杂UI布局的能力使Ferret-v2在UI元素识别方面超越了竞争对手如GPT-4V,在相关测试中取得了89.73分的显著成绩。

该模型还展示了适应性架构在跨平台可用性方面的力量。其设计优先考虑对用户意图的理解,使其能够解释和处理UI元素之间的空间关系,而不是依赖静态点击坐标。这标志着苹果方法的重大转变,使Ferret-v2能够处理从手机到网页浏览器和Apple TV等各种设备上的应用程序。然而,在移动设备和较大屏幕平台(如电视和网页界面)之间切换时,由于屏幕布局的差异,存在一些小的挑战,这突显了进一步改进的领域。

你知道吗?

  • 行业背景:苹果发布Ferret-v2使其直接与微软的OmniParser和Anthropic的Claude 3.5 Sonnet竞争,这两者都旨在实现类似的跨设备UI交互。然而,Ferret-v2基于上下文驱动的方法,结合先进的编码器和高分辨率处理,可能为其带来显著优势。

  • Siri的潜在进化:将Ferret-UI的能力与苹果的CAMPHOR框架整合,表明Siri可能很快能够执行更高级的任务,如与专用AI代理协调,并使用自然语言自主导航应用程序或网页。

  • 超越可访问性:Ferret-v2的详细空间感知能力在可访问性方面具有潜在应用。其屏幕摘要功能最初旨在帮助视障人士,可能很快在创建完全适应的语音控制技术环境中发挥作用,从而进一步改变苹果生态系统中的用户交互。

随着苹果继续完善Ferret-v2的能力,其彻底改变用户交互(从无缝导航到高级自动化)的潜力,预示着跨平台UI整合的光明未来。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯