OpenAI的模型在评估眼疾方面几乎与医生不相上下

根据研究，OpenAI 最新的人工智能模型在分析眼部状况方面几乎与专家医生不相上下，这凸显了该技术在医学领域的潜力。本周三发表的一篇论文显示，微软支持的新创公司的GPT-4模型在评估眼部问题和提出治疗建议方面，除了得分最高的专科医生外，其他所有医生都超过或达到了相同的分数。

眼科一直是将人工智能应用于临床并解决其应用障碍的工作重点，例如模型通过虚构数据产生"幻觉"的倾向。"这项工作表明，这些大型语言模型在眼健康方面的知识和推理能力现在几乎与专家无异，"发表在《PLOS 数字健康》杂志上的一篇论文的主要作者 Arun Thirunavukarasu 说。

他补充说："我们看到了回答相当复杂问题的能力。研究使用了 87 种不同的病人情况来测试 GPT-4 在非专业初级医生、见习眼科医师和专家眼科医师中的表现。论文称，该模型的表现优于初级医生，并取得了与许多专家相似的结果。

研究人员说，这项研究之所以引人注目，是因为它将人工智能模型的能力与执业医生的能力进行了比较，而不是与检查结果进行比较。它还运用了生成式人工智能的广泛能力，而不是之前一些人工智能医学研究中测试的狭窄能力，如通过病人扫描诊断癌症风险。该模型在需要一阶记忆的问题和需要高阶推理的问题（如插值、解释和处理信息的能力）上表现同样出色。

Thirunavukarasu 在剑桥大学临床医学院学习期间开展了这项研究，他目前在牛津大学工作，他认为可以通过扩大数据集（包括管理算法、去身份化的病人笔记和教科书）对模型进行训练，从而进一步完善模型。这就要求在扩大信息来源的数量和性质的同时，确保信息保持良好的质量，在两者之间取得"棘手的平衡"。

潜在的临床用途可能是对病人进行分流，或在专业医护人员有限的情况下使用。有证据表明，人工智能有助于诊断，例如能发现可能被医生遗漏的早期乳腺癌，因此在临床环境中部署人工智能的兴趣大增。与此同时，考虑到错误诊断可能对患者造成的伤害，研究人员也在努力解决如何控制严重风险的问题。

伦敦大学学院人工医学智能教授皮尔斯-基恩（Pearse Keane）说，这项最新研究"令人兴奋"，其利用人工智能为专家的表现设定基准的想法"超级有趣"。基恩也是伦敦莫菲尔德眼科医院的成员，他也认为，在将这些技术引入临床之前，还需要做更多的工作。

他列举了自己去年研究中的一个例子：向一个大型语言模型询问有关眼部黄斑变性的问题，结果该模型在回答中给出了根本是"杜撰"出来的参考资料。"我们必须在对这项技术的兴奋和潜在的巨大利益之间取得平衡.....至少要有谨慎和怀疑。"他说。