为什么说IQ不是人工智能的测试标准

在最近的一次新闻发布会上，OpenAI 首席执行官山姆-奥特曼（Sam Altman）说，他观察到人工智能的"智商"在过去几年中迅速提高。他说："非常粗略地说，我感觉这在科学上并不准确，这只是一种感觉或精神上的答案--每年我们的智商都会提高一个标准差。"

奥特曼并不是第一个把智商（一种对人的智力的估计）作为人工智能进步基准的人。社交媒体上的人工智能博主曾对模型进行智商测试，并对结果进行排名。但许多专家表示，智商并不能很好地衡量模型的能力，而且会产生误导。

牛津大学研究科技与监管的研究员桑德拉-瓦赫特（Sandra Wachter）说："用我们对人类使用的相同衡量标准来描述能力或进步，这可能很有诱惑力，但这就像拿苹果和橘子作比较。"

奥特曼在新闻发布会上发表评论时，将智商等同于智力。然而，智商测试是衡量某种智力的相对标准，而不是客观标准。有一些共识认为，智商是对逻辑和抽象推理的合理测试。但它并不能测量实践智力--知道如何使事物运转，而且它充其量只是一个快照。

瓦赫特指出："IQ 是一种衡量人类能力的工具，而且是一种有争议的工具，其依据是科学家们认为人类的智力是什么样的。但不能用同样的方法来描述人工智能的能力。汽车的速度比人类快，潜艇的潜水能力比人类强。但这并不意味着汽车或潜艇超越了人类智慧。你这是在将人类智力的一个方面与人类性能相提并论，而人类智力要复杂得多。"

智商测试的起源一些历史学家将其追溯到优生学--一种被广泛诋毁的科学理论，认为可以通过选择性繁殖来提高人的智商--要想在智商测试中取得优异成绩，测试者必须具备强大的工作记忆和对西方文化规范的了解。当然，这就为偏见提供了可乘之机，这也是一位心理学家将智商测试称为"意识形态败坏的智力机械模型"的原因。

华盛顿大学研究人工智能伦理的博士候选人 Os Keyes 认为，一个模型在智商测试中表现出色，更多地是说明了测试的缺陷，而不是模型的表现。

凯耶斯说："如果你有无限的记忆力和耐心，[这些]测试是很容易刷分的。智商测试是衡量认知、智商和智力的一种非常有限的方式，这一点我们在数字计算机本身发明之前就已经知道了。"

人工智能在智商测试中很可能也具有不公平的优势，因为模型拥有海量内存和内化知识。通常情况下，模型是在公共网络数据上进行训练的，而网络上有很多从智商测试中提取的例题。

伦敦国王学院（King's College London）专门从事人工智能研究的研究员迈克-库克（Mike Cook）说："测试往往会重复非常相似的模式--提高智商的一个万无一失的方法就是练习智商测试，这基本上是每个（模型）都做过的事情。当我学习某样东西时，我不会像人工智能那样把它清晰地输入我的大脑100万次，我也不可能在没有噪音或信号损失的情况下处理它。"

归根结底，智商测试--尽管有失偏颇--是为人类设计的，旨在作为一种评估一般问题解决能力的方法。对于解决问题的方式与人类截然不同的技术来说，这些测试并不合适。

库克说："乌鸦也许可以使用工具从盒子里找到食物，但这并不意味着它可以进入哈佛大学学习。当我解决一道数学题时，我的大脑也在与自己的能力作斗争，它要正确地阅读书页上的文字，不要去想回家路上要买的东西，或者现在房间里是否太冷。换句话说，人类大脑在解决问题时，不管是任何问题，不管是智商测试还是其他问题，都要处理更多的事情，而且[比人工智能]得到的帮助要少得多。"

AI Now 研究所的首席人工智能科学家海迪-克拉夫（Heidy Khlaaf）认为："所有这些都表明需要更好的人工智能测试方式。在计算的历史上，我们从未将计算能力与人类的计算能力进行过比较，这正是因为计算的本质意味着系统总是能够完成已经超出人类能力的任务。我们直接将系统性能与人类能力进行比较的想法是最近出现的一种现象，这种现象备受争议，也是围绕着不断扩大和移动的基准所产生的争议来评估人工智能系统。"