MM-Navigator,一种基于GPT-4V的智能代理,用于智能手机用户界面(GUI)导航任务。
MM-Navigator可以像人类用户一样与智能手机屏幕交互,并根据给定的指令确定后续操作。 该系统在生成合理的行动描述方面达到了91%的准确率,在iOS上执行单步指令的正确行动方面达到了75%的准确率,超越了以前的GUI导航器。