通过照片来进行定位在以前是个很好玩的事情,比如 B 站 UP 主 @地球百科君 就经常收到网友发来的照片,根据照片中的光线、地理结构、店铺招牌等信息来定位图片中的位置在哪。对大多数用户来说从照片里进行定位是个略微有些难度的事情,但以后,通过 AI 来识别那就是个非常简简单单的活儿了。
GeoGuessr 是一个地理位置发现网页游戏,游戏会将玩家放置到一个半随机的谷歌街景地点,要求玩家只通过可见的线索来猜测他们在世界上的位置。
这个游戏里有个著名的玩家叫 Trevor Rainbolt,斯坦福大学新的 AI 模型就拿这名玩家进行练手,进行六次对战后 AI 完胜。
斯坦福大学一群研究生推出的这个应用程序名为预测图像地理位置 (PIGEON),该应用背后使用他们自己训练的 AI 模型进行驱动,而 AI 模型又通过 OPENAI CLIP 神经网络进行处理,可以将文本链接到图像。
PIGEON 的原理是利用谷歌街景功能以及其他公开的图片来对比用户拍摄的照片,在以前靠人工比对是个辛苦活,但现在 AI 可以快速搞定定位。
基准测试显示 PIGEON 的准确率为 92%,还可以在 40% 的猜测中奖位置范围缩小到 25 公里的范围。所以一经上线测试 PIGEON 就打败了 GeoGuessr 上的大部分玩家,成为排名前 0.01% 的 “玩家”。
训练:
根据项目团队的说明,在 PIGEON 开始时,他们使用了来自 GeoGuessr 的 10 万个随机采样的原始位置进行训练,之后还吓着了四张图像来涵盖给定位置的整个全景,相当于 40 万张图片。
同时项目团队还创建了大约包含 50 万张街景图像的数据集,实际上整个数据集的规模并不算大,但训练出来的 AI 模型表现已经很不错。
隐私:
如果是其他 AI 模型,或许这时候就可以直接发布模型供爱好者玩耍了,但这个 AI 模型存在潜在的隐私问题,因为它可以被犯罪分子用来定位某些用户。
比如某用户在社交网络上发布了一张随手拍的照片,那么犯罪分子就可以通过 AI 模型来找到这种照片的大概位置,进而知道这名用户的位置。
项目团队强调,该应用程序在自动驾驶、视觉调查、安全等方面可以成为一种有效的工具,然而如果落入坏人之手,并被用于非预期目的的不良用途,则潜在的危害令人高度担忧。
因此项目团队决定不公开此 AI 模型、仅出于学术目的共享代码。
论文地址:https://arxiv.org/pdf/2307.05845.pdf
PS:担心这种技术落入坏人之手被利用,这种担心其实是“多余”的,因为这类技术肯定会落入坏人之手,毕竟即便 PIGEON 背后的模型不泄露,随着时间的推移,只要有需求,就一定会有其他人也创建类似的 AI 模型。