苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

4 月 10 日消息，苹果公司近日发布研究论文，展示了 Ferret-UI AI 系统，可以理解应用程序屏幕上的内容。

以 ChatGPT 为代表的 AI 大语言模型（LLMs），其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频和音频等非文本内容，多模态大语言模型（MLLMs）因此孕育而生。

只是现阶段 MLLMs 还无法有效理解移动应用程序，这主要有以下几个原因：

1. 手机屏幕的宽高比，和大多数训练图像使用的屏幕宽高比不同。

2. MLLMs 需要识别出图标和按钮，但它们相对来说都比较小。

因此苹果构想了名为 Ferret-UI 的 MLLM 系统解决了这些问题：

与自然图像相比，用户界面屏幕的长宽比通常更长，包含的关注对象（如图标、文本）也更小，因此我们在 Ferret 的基础上加入了 “任意分辨率”，以放大细节并利用增强的视觉功能。

我们精心收集了大量初级用户界面任务的训练样本，如图标识别、查找文本和小部件列表。这些样本的格式都是按照带有区域注释的指令来设计的，以便于精确引用和接地。

为了增强模型的推理能力，我们进一步编制了高级任务数据集，包括详细描述、感知 / 交互对话和功能推理。

苹果在论文中表示相比较现有的 GPT-4V，以及其它 MLLMs 模型，Ferret-UI AI 模型更为优秀。

附上参考地址

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

wpsword打开是乱码怎么办? WPS打开Word乱码的解决办法

恐惧之间地图怎么打开地图房间分布一览

最新文章

小米汽车：HyperOS 1.4.3 版本新增车速过高提醒，每次车辆启动时默认开启、并不会进行动力限制

国内最大吨位 16000T：东风汽车一体化压铸产业化项目开工建设，预计 2026 年 6 月量产

徕卡 2023-2024 财年创下百年以来最高营收纪录，年收入 5.54 亿欧元、同比增长 14%

登机牌怎么看行李转盘

曹云金现在怎么样了(曹云金的现状)

「已解答」热河是哪里

在家兼职网赚（网上工作兼职在家挣钱）

自热火锅怎么弄（自热火锅如何操作才能安全放心？）

钢笔怎么用墨囊上墨水（钢笔换墨囊步骤有图）

乌合之众是什么意思（什么是“乌合之众）

最新评论

标签

关注我们么么哒！

苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

wpsword打开是乱码怎么办? WPS打开Word乱码的解决办法

恐惧之间地图怎么打开 地图房间分布一览

最新文章

小米汽车：HyperOS 1.4.3 版本新增车速过高提醒，每次车辆启动时默认开启、并不会进行动力限制

最新评论

标签

关注我们 么么哒！

关注我们的公众号

恐惧之间地图怎么打开地图房间分布一览

关注我们么么哒！