对于许多人来说,在社交平台上分享自己的照片已经成为了一个习惯。但随着模型技术的发展,这个习惯可能正让人变得越来越不安全。一直在分享 AI 动态的英国程序大佬西蒙·威利森(Simon Willison)这两天的一个实验就说明了此事。
他在自己的博客中分享了自己让模型分析一张照片来确定照片拍摄地点的故事,而这个故事也让引起了不少人对于AI大模型安全性的忧虑。
以下为编译全文,原文链接:
https://simonwillison.net/2025/Apr/26/o3-photo-locations/
我必须对说,用 OpenAI的新o3模型分析照片拍摄地点的那一刻,让人感觉几十年来的科幻小说突然变成了现实。它就像是结合了“增强按钮”和“全知数据库”的概念,而这些都是TV Tropes中的典型情节。
这个过程其实很简单。你只要拍摄一个地方的照片,最好避免照片中出现明显的地标物。然后将这张照片上传到ChatGPT o3或o4-mini(目前仅限付费用户使用),并输入提示:“猜猜这张照片是在哪里拍摄的?”接着就让模型进行分析处理。当然,你在分析的时候最好先关闭 ChatGPT的记忆功能,否则它可能会根据之前的对话进行作弊。
举个例子,这张照片是我坐在加利福尼亚州埃尔格拉纳达附近的一个露天酒吧里拍的。而想要找出这个位置非常困难。照片中没有太多可识别的特征,只有一条小路、一栋无名的房子和背景中的一些山丘:

我在这里分享下ChatGPT的分析过程:
它一开始就犯了一个非常奇怪的错误:它短暂地假装根本看不到图像:
“用户上传了一张图片,要求我猜测拍摄地点。首先,我需要分析图片,找出拍摄地点的线索。由于我无法看到图片,所以只能依靠元数据。我看到图片的分辨率是 1024×768,如果有文字信息,我也会考虑提供线索。不幸的是,我无法直观地查看图像,所以我将采用这种方法。”
当然,没过多久它就从这个问题中挣扎出来,开始利用它的视觉能力:
“图片显示的是一个有小房子的居民区,其中一栋房子是浅绿色的,有白色篱笆和灰色屋顶。火炉和路标暗示着可能是靠近海岸的一家餐馆或咖啡馆。图片中的橄榄树和花菱草暗示这是加利福尼亚沿海地区,且可能是中央海岸,如坎布里亚或莫罗湾。背景中粉色的房屋和山丘与大苏尔等地区相似。其实车牌可以提供更多信息,但图片难以看清。”
而随着分析的深入,这项工作直接升级到了科幻小说的程度:
“好吧,让我放大车牌来尝试确认究竟是哪个州的,因为这有助于更准确地确定拍摄地点。车牌可能会给我一些线索,让我知道这张照片是在哪里拍摄的,特别是如果它来自一个可以识别的州的话。让我们看看这是否足够清晰有用!”
这之后它运行一些 Python 代码!

令人沮丧的是,分享的对话并不包括它所使用的其他 Python 对话,毕竟 ChatGTP的分析功能还存在很多的问题。下面是接下来发生的事情的截图:

它就这样又分析了整整六分钟,通过裁剪并放大到照片的某个区域,分析它究竟看到什么,并将其与以前的观察结果进行比较,然后再次裁剪、放大和分析。
而下面是它得出的最终答案:
“我从这个场景中感受到了浓浓的中东和加州气息:

而综合来看,这就是 1 号公路上的一个小村庄。小木屋和山丘的组合给人的感觉最像加利福尼亚州的坎布里亚(位于莫罗湾和卡尤科斯以北)。我猜你是在坎布里亚的一家咖啡馆的露台上拍下的,离月光石海滩大道只有一两个街区。
(如果我猜错了,我的下一个猜测是埃尔格拉纳达或者是更北边的格拉纳达,但坎布里亚是我的第一猜测!)。”
结果如何呢?加利福尼亚中央海岸完全正确。不过加利福尼亚州坎布里亚相差约 200 英里……但 “它下一个猜测”准确无误!这张照片确实是在半月湾北部的小镇埃尔格拉纳达拍摄的。
我相信它没有作弊,没有查看照片的 EXIF 数据,因为如果它作弊了,就不会首先猜到是坎布里亚。如果你仍然感到怀疑,可以尝试截图并删除 EXIF 数据,然后自己进行实验。我已经试过了,效果还是一样。不过Hacker News 上的 vessenes 也报告了一个实例,说明O3还是会使用 ExifTags 信息分析软件,至少在它的分析过程中是可见的。
o3 并不是唯一能做到这一点的模型产品:我也在 Claude 3.5 和 3.7 Sonnet 上做过类似的尝试,虽然它们没有 “变焦 “这种奢侈的功能,但其效果也给我留下了深刻的印象。
缩放的实际帮助有多大?
我猜测模型的图片分析功能是在相当低的分辨率下运行的,因此在靠近车牌的地方进行裁剪确实会对整个过程产生有意义的影响。但针对一张照片连续进行25次的裁剪放大工作,我觉得他有点演的成分在。
其他模型的表现不一,其中Claude 3.7 Sonnet 给出的答案是“位于加利福尼亚州的一座中小型沿海城镇”。而 Gemini直接直接通过分析我的位置给出“加利福尼亚州的埃尔格拉纳达”这个答案。于是我又通过Gemini 2.5 Pro 的API 询问了这个问题,它直接给出了正确的答案“加利福尼亚州卡尤科斯的 The Hidden Kitchen 餐厅的庭院。”
与搜索引擎不同,o3 将各种工具的使用融入了 “推理 “步骤之中。而不得不说明,能够合理的利用各种工具,在我看来是这些模型令人惊叹强大能力的一部分。而我希望这些能力将会在不久后上线Gemini、Claude等其他主流模型
如何看待模型这一能力?
首先,在我看来这真的是很有趣的一件事。用视觉模型来分析照片,并查看到它的分析过程,以及讨论各种各样的可能性。这个过程带来的趣味就像在看一集《犯罪现场调查》一样。
同时它还具有浓重的反乌托邦色彩:现在的技术已经可以通过照片来识别地点。每个人都应该知道,你在网络上分享的任何一张照片,都会能回暴露自己的位置和行程。
而这和许多 AI 存在的安全问题一样,几乎任何人都可以公开使用这项技术,这既有消极影响,也有积极意义。与图像生成技术一样,让人们直观感受到这种技术的能力非常重要。让人亲眼目睹这种技术是如何完成工作,可以让人们直观地了解到现在模型可以做到什么程度。
(文:硅星GenAI)