苹果工程师们已经开发出一款能够精准描述街景场景的人工智能代理。如果研究成功,它有望成为一种帮助视障人士提前虚拟探索某个地点的工具。盲人和视障人士已经拥有了导航设备和当地环境的工具。然而,苹果认为,让他们在前往目的地之前了解当地的地形特征可能会大有裨益。
苹果机器学习研究中心周一发布的一篇论文探讨了 SceneScout,这是一款由多模态大型语言模型驱动的 AI 代理。该代理的核心功能是查看街景图像,分析所见内容,并向观看者进行描述。
该论文的作者是苹果公司的 Leah Findlater 和 Cole Gleason,以及哥伦比亚大学的 Gaurav Jain。
据称,视力低下的人可能会犹豫在陌生的环境中独立出行,因为他们事先不知道会遇到什么样的地形。
有一些工具可以描述本地环境,例如微软 2018 年推出的Soundscape 应用程序。然而,它们都是为现场工作而设计的,而不是提前工作的。
目前,出行前建议会提供地标和逐向导航等详细信息,但这些内容无法为视障用户提供太多的景观背景信息。然而,街景风格的图像,例如Apple Maps Look Around,通常会为视力正常的用户提供更多背景线索,而这些线索往往会被视力障碍人士忽略。
这就是 SceneScout 介入的地方,它作为 AI 代理,使用街景图像提供可访问的交互。
Scene Scout 有两种模式,其中“路线预览”模式提供路线上可观察到的元素的详细信息。例如,它可以提示用户注意转弯处的树木以及其他更具触感的元素。
SceneScout 输出示例
第二种模式是虚拟探索,它可以在街景图像内实现自由移动,向用户描述虚拟移动的元素。
在用户研究中,该团队发现 SceneScout 对视障人士很有帮助,因为它能发现他们使用现有方法无法访问的信息。
就描述而言,大多数描述被认为是准确的,准确率为72%,并且能够描述稳定的视觉元素,准确率为95%。然而,偶尔出现的“细微且似是而非的错误”使得描述很难在不使用视觉的情况下进行验证。
当谈到改进系统的方法时,测试参与者建议SceneScout可以提供适用于多个会话的个性化描述。例如,系统可以了解用户喜欢听到的信息类型。
将描述的视角从汽车顶部的摄像头转移到行人通常所在的位置也有助于改善信息。
改进系统的另一种方法也可以在现场进行。参与者表示,他们希望街景描述能够实时提供,以匹配他们行走的位置。
参与者表示,这可以是一个通过骨传导耳机或透明模式在用户移动时提供视觉信息的应用程序。此外,用户可能希望在设备中使用陀螺仪和指南针的组合来指向环境细节的大致方向,而不是指望着摄像头对准计算机视觉。
与专利申请类似,一篇详述人工智能新用途的论文并不能保证它一定会应用于未来的产品或服务。然而,它让我们得以一窥苹果公司为这项技术考虑的应用场景。
虽然不使用街景图像,但类似的方法可以利用一些传闻中的苹果产品。
据悉,苹果正在研发内置摄像头的AirPods,以及自带摄像头的Apple Glass智能眼镜。这两种眼镜的摄像头都能为Apple Intelligence提供世界视角,进而帮助解答用户的疑问。
不难想象,类似的系统也可以用来向用户描述本地环境。所有这些都是通过实时数据,而不是可能过时的街景图像来实现的。