返回上一页  首页 | cnbeta报时: 14:40:50
微软宣称其新工具可纠正人工智能幻觉 但专家依然对此表示怀疑
发布日期:2024-09-24 22:05:53  稿源:cnBeta.COM

人工智能经常胡言乱语,微软现在说它有办法解决这个问题,但我们有理由对此持怀疑态度。微软今天发布了一项名为"更正"(Correction)的服务,它可以自动修改人工智能生成的与事实不符的文本。Correction 首先会标记出可能存在错误的文本--例如,公司季度财报电话会议的摘要可能存在错误的引文--然后通过将文本与事实来源(如文字记录)进行比较来进行事实核查。

作为微软 Azure AI 内容安全 API 的一部分,Correction 可与任何文本生成 AI 模型一起使用,包括 Meta 的Llama和 OpenAI 的GPT-4o。

"校正由一个利用小型语言模型和大型语言模型的新流程提供支持,以便使输出与基础文档保持一致,"微软发言人表示。"我们希望这项新功能能为医学等领域的生成式人工智能构建者和用户提供支持,在这些领域,应用开发者认为响应的准确性非常重要。"

今年夏天,Google在其人工智能开发平台 Vertex AI 中推出了一项类似功能,让客户可以通过使用第三方提供商的数据、自己的数据集或Google搜索来"磨合"模型。

但专家提醒,这些接地方法并不能从根本上解决幻觉问题。华盛顿大学研究新兴科技伦理影响的博士候选人奥斯-凯耶斯(Os Keyes)说:"试图从生成式人工智能中消除幻觉,就像试图从水中消除氢气一样不切实际,因为幻觉本身就是技术运作的一个重要组成部分。"

文本生成模型会产生幻觉,因为它们实际上什么都不"知道"。它们是一种统计系统,能识别一系列单词中的模式,并根据它们所训练的无数实例预测下一个单词。

由此可见,模型的回答并不是答案,而只是预测如果问题出现在训练集中会如何回答。因此,模型往往会对真相玩弄于股掌之间。一项研究发现,OpenAI 的ChatGPT有一半的时间会弄错医疗问题。

微软的解决方案是一对交叉引用、类似于文案编辑器的元模型,旨在突出和改写幻觉。

分类器模型会查找人工智能生成的文本中可能存在的错误、捏造或不相关的片段(幻觉)。如果检测到幻觉,分类器就会引入第二个模型,即语言模型,试图根据指定的"基础文件"纠正幻觉。


"通过帮助应用程序开发人员减少用户不满和潜在的声誉风险,修正可以大大提高人工智能生成内容的可靠性和可信度,"微软发言人说。"需要注意的是,接地性检测并不能解决'准确性'问题,但有助于使人工智能的生成输出与接地文件保持一致。"

凯耶斯对此表示怀疑。"这可能会减少一些问题,但也会产生新的问题。毕竟,Correction的幻觉检测库估计也能产生幻觉。"

在被问及有关 Correction 模型的背景介绍时,该发言人指出,微软研究团队最近发表了一篇论文,描述了这些模型的预生产架构。但该论文忽略了一些关键细节,比如使用了哪些数据集来训练模型。

玛丽皇后大学专门研究人工智能的研究员迈克-库克(Mike Cook)认为,即使"Correction"能像宣传的那样发挥作用,它也有可能加剧人工智能的信任和可解释性问题。这项服务可能会捕捉到一些错误,但也可能让用户陷入虚假的安全感--以为模型比实际情况更真实。

他说:"微软与 OpenAI 和Google一样,都造成了这样一个问题,即在模型经常出错的场景中依赖模型。微软现在所做的是在更高层次上重蹈覆辙。比方说,这让我们从 90% 的安全性提高到了 99% 的安全性--问题其实并不在那 9%。它永远存在于我们尚未发现的那 1%的错误中。"

库克补充说,微软捆绑"修正"功能还有商业考量,该功能本身是免费的,但每月最多只能免费提供 5000 条"文本记录"。之后,每 1000 条文本记录需支付 38 美分。

微软无疑面临着向客户和股东证明其人工智能值得投资的压力。仅在第二季度,这家科技巨头就在资本支出和设备方面投入了近 190 亿美元,其中大部分与人工智能有关。然而,该公司尚未从人工智能中获得可观的收入。本周,一位华尔街分析师下调了该公司的股票评级,理由是对其长期人工智能战略存有疑虑。

据《The Information》的一篇文章称,由于性能和成本问题,许多早期采用者已经暂停部署微软的旗舰生成式人工智能平台--Microsoft 365 Copilot。据报道,对于一个使用 Copilot 进行 Microsoft Teams 会议的客户来说,人工智能发明了与会者,并暗示通话的主题实际上从未讨论过。

毕马威会计师事务所(KPMG)的一项民意调查显示,在试用人工智能工具时,准确性和可能出现的幻觉是企业目前最担心的问题。

库克说:"如果这是一个正常的产品生命周期,那么生成式人工智能仍将处于学术研发阶段,并在不断改进和了解其优缺点。相反,我们已经把它部署到了十几个行业。微软和其他公司已经把所有人都装上了他们的发动机,并决定在前往目的地的途中建造起落架和降落伞。"

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 14:40:50

文字版  标准版  电脑端

© 2003-2024