返回上一页  首页 | cnbeta报时: 15:28:59
专家建议在降低AI风险方面进行大量投资 并制定更严格的全球法规以防止滥用
发布日期:2024-05-25 16:01:57  稿源:cnBeta.COM

专家建议在降低人工智能风险方面进行大量投资,并制定更严格的全球法规,以防止滥用并指导人工智能的安全发展。研究人员已经警告过快速发展的人工智能(AI)技术所带来的极端风险,但对于如何管理这些危险还没有达成共识。在政策论坛上,世界领先的人工智能专家Yoshua Bengio及其同事分析了人工智能技术发展的风险。

science.adn0117-f1.jpg

这些风险包括社会和经济影响、恶意使用以及人类可能失去对自主人工智能系统的控制。他们提出了积极主动的适应性治理措施,以降低这些风险。

作者敦促大型技术公司和公共资助者加大投入,至少将三分之一的预算用于评估和降低这些风险。他们还呼吁全球法律机构和政府执行防止滥用人工智能的标准。

这些挑战包括以下方面:

监督与诚信能力更强的人工智能系统可以更好地利用技术监督和测试方面的弱点,例如,产生虚假但令人信服的输出。

鲁棒性人工智能系统在新情况下的表现难以预测。随着模型规模的扩大,鲁棒性的某些方面会得到改善,而其他方面则不会,甚至会变得更糟。

可解释性和透明度人工智能决策是不透明的,规模更大、能力更强的模型解释起来更加复杂。到目前为止,我们只能通过试错来测试大型模型。我们需要学习了解它们的内部运作。

包容性的人工智能发展人工智能的发展需要有方法来减少偏见,并整合其将影响的众多人群的价值观(见 SM)。

应对新出现的挑战 未来的人工智能系统可能会出现我们迄今为止仅在理论或实验室实验中见过的失效模式,例如人工智能系统控制了训练奖励-提供渠道,或利用我们安全目标和关闭机制中的弱点来推进特定目标。第二类研发挑战需要取得进展,以实现有效的风险调整治理,或在安全和治理失效时减少危害。

评估危险能力 随着人工智能开发人员对系统进行扩展,不可预见的能力会在没有明确编程的情况下自发出现(见 SM)。它们往往在部署后才被发现(见 SM)。我们需要严格的方法来激发和评估人工智能能力,并在训练前对其进行预测。这既包括在世界上实现宏伟目标的通用能力(如长期规划和执行),也包括基于威胁模型的特定危险能力(如社会操纵或黑客攻击)。目前对危险能力的人工智能前沿模型的评估是各种人工智能政策框架的关键,但这些评估仅限于抽查和在特定环境下的尝试性演示(见 SM)。这些评估有时可以展示危险能力,但无法可靠地排除危险能力:在测试中缺乏某些能力的人工智能系统,很可能在稍有不同的环境中或经过后期训练增强后显示出这些能力。因此,依赖于人工智能系统不跨越任何红线的决策需要很大的安全系数。改进评估工具可以降低遗漏危险能力的几率,从而允许更小的安全系数。

评估人工智能调整 如果人工智能继续发展,人工智能系统最终将拥有高度危险的能力。在训练和部署这些系统之前,我们需要一些方法来评估它们使用这些能力的倾向。对于先进的人工智能系统来说,纯粹的行为评估可能会失败:与人类类似,它们可能会在评估中表现出不同的行为,伪造一致性。

风险评估 我们不仅要学会评估危险的能力,还要学会评估社会背景下的风险,以及复杂的相互作用和脆弱性。对前沿人工智能系统进行严格的风险评估仍然是一个公开的挑战,因为这些系统具有广泛的能力,而且在不同的应用领域中普遍部署。

复原力 不可避免的是,有些人会滥用或肆意使用人工智能。我们需要一些工具来检测和防御人工智能带来的威胁,如大规模影响行动、生物风险和网络攻击。然而,随着人工智能系统的能力越来越强,它们最终将能够规避人类制造的防御系统。为了实现更强大的基于人工智能的防御,我们首先需要学习如何使人工智能系统安全并保持一致。

"为了引导人工智能取得积极成果,远离灾难,我们需要调整方向。有一条负责任的道路--只要我们有智慧去走它,"作者写道。

它们突显了全球科技公司竞相开发通用人工智能系统的情况,这些系统在许多关键领域的能力可能与人类不相上下,甚至超过人类。然而,这种快速进步也带来了社会规模的风险,可能会加剧社会不公、破坏社会稳定,并导致大规模网络犯罪、自动化战争、定制化大规模操纵和无孔不入的监控。

重点关注的问题之一是,自主人工智能系统有可能失去控制,这将使人类的干预变得无效。

专家认为,人类尚未做好充分准备来应对这些潜在的人工智能风险。他们指出,与提高人工智能能力的努力相比,在确保安全和合乎道德地开发和部署这些技术方面投入的资源少之又少。为了弥补这一差距,作者概述了人工智能研究、开发和治理的当务之急。

DOI: 10.1126/science.adn0117

查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 15:28:59

文字版  标准版  电脑端

© 2003-2024