苹果发布了一篇研究论文,介绍了他们新的多模式大语言模型(MLLM)。该模型名为 Ferret-UI,可以理解移动用户界面(UI)屏幕,识别不同元素,如应用程序图标、小文本等。
传统的LLM只考虑文本,而MLLM除了文本还包括对多媒体信息的理解。因此,对于 Ferret-UI 来说,它的训练难度要比传统的MLLM大得多,但也正是因为如此,使得 Ferret-UI 在识别应用屏幕上的元素方面,性能得到了极大的提升。
在这篇论文中,苹果的研究团队将 Ferret-UI 和 OpenAI 的 MLLM GPT-4V 进行了比较。在基础任务中,Ferret-UI 几乎在所有任务上均优于 GPT-4V。唯一的例外是在 iPhone 上的“查找文本” 任务中,GPT-4V 稍微优于 Ferret 模型。在对 UI 调查结果进行论证时,GPT-4V 稍微领先,其在推理对话上表现优异,超过了 Ferret93.4% 对91.7%。
那么,苹果将如何运用这项技术呢?论文并未提及,研究人员更广泛地表示,Ferret-UI 的先进功能有望积极影响与 UI 相关的应用。Ferret-UI 可以提升 Siri 的功能,模型对用户应用屏幕的全面理解以及执行某些任务的知识,可以用于强化 Siri,让其为用户执行任务。
在未来,用户逐渐对语音助手的需求和体验提出更高要求,苹果将在语音助手上的投入越来越大。相信随着技术的快速进步,苹果将会创造更多的AI驱动的应用,为用户提供更好的使用体验。
Ferret-UI的优势
1.多模式元素的深刻理解: 传统LLM只考虑文本,而MLLM可以理解多媒体信息,在Ferret-UI中也是一样,它可以理解UI界面的各种元素,如应用程序图标、小文本等,从而准确识别和执行任务。
2.使用任意分辨率: 在识别应用屏幕元素时,由于这些元素的细微特性,对 MLLM 来说具有挑战性。为了克服这个问题,研究人员在 Ferret 上增加了“任意分辨率”,使其能够放大屏幕上的细节。
3.指代、基础和推理能力:苹果的 MLLM 还具有 “指代、基础和推理能力”,这使得 Ferret-UI 能够充分理解 UI 屏幕并根据屏幕内容执行任务。
Ferret-UI的应用前景
研究人员表示,Ferret-UI 的先进功能有望积极影响与UI相关的应用,能够提升 Siri 的功能。随着技术的不断更新和AI在智能家居、智慧医疗、无人驾驶、工业制造等领域的普及,相信苹果将会在更多的应用场景中使用这些技术。
结语
作为全球知名的硬件厂商,苹果不断在AI技术上进行探索,利用AI技术为用户带来更好的产品体验。相信未来,随着科学技术的不断进步,苹果将会在更多的领域进行AI探索和创新,推出更多基于AI技术的新产品。我们期待着未来的苹果。
如果您有任何疑问或建议,请在评论区留言,感谢您的阅读!
图片引用:
免责声明:以上图片来自 https://unsplash.com/,仅供参考,不代表站长之家观点。
感谢您的阅读!如果您认为这篇文章有价值,请点赞、关注、分享,并留下您的宝贵意见。
本文链接:https://www.24zzc.com/news/171275500066266.html