Google声称Bard AI在数学和编程方面有所进步

摘要:

被认为陷入困境的Google人工智能聊天机器人Bard正在慢慢改进涉及逻辑和推理的任务。 这是根据这家科技巨头今天发布的一篇博客文章得出的结论,这表明——由于一种称为“隐式代码执行”的技术,Bard现在在数学和编码领域得到了专门的改进。

正如博客文章所解释的那样,大型语言模型 (LLM)(例如 Bard)本质上是预测引擎。 当给出提示时,他们会通过预测句子中接下来可能出现的单词来做出响应。 这使他们成为非常优秀的电子邮件和论文作者,但对于软件开发人员来说,它有些有些容易出错。

你可能会说——像 GitHub 的 Copilot 和亚马逊的 CodeWhisperer 这样的代码生成模型呢? 这些不是通用的。 与 Bard 和 ChatGPT 沿线的竞争对手不同,后者使用来自网络、电子书和其他资源的大量文本样本进行训练,Copilot、CodeWhisperer 和类似的代码生成模型几乎完全在代码样本上进行训练和微调。

为了解决一般 LLM 中的编码和数学缺陷,Google 开发了隐式代码执行,允许 Bard 编写和执行自己的代码。 最新版本的 Bard 识别可能受益于逻辑代码的提示后编写代码对其进行测试并使用结果生成表面上更准确的响应。

根据内部基准测试,Google表示,与之前的 Bard 版本相比,新的 Bard 对“基于计算的”单词和数学问题的反应提高了 30%。 当然,我们必须在现实中观察这些说法是否经得起外部测试。

“即使有了这些改进,Bard 也不会总是正确——例如,Bard 可能不会生成代码来帮助快速响应,它生成的代码可能是错误的,或者 Bard 可能不会在其响应中包含已执行的代码,”Bard 产品负责人 Jack Krawczyk 和工程副总裁 Amarnag Subramanya 在博文中写道。 “综上所述,这种通过结构化、逻辑驱动的能力进行响应的改进能力是使 Bard 变得更有帮助的重要一步。”

当Google今年早些时候推出 Bard 时,它并没有将其与 Bing Chat 和 ChatGPT 等产品相提并论。 事实上,这次推出有点像一场灾难,输出的错误答案短暂地使公司股价下跌了 8%。

据报道,在发布 Bard 之前对其进行测试的几名Google员工对这家搜索巨头提出了严重的担忧,其中一人称其为“病态的骗子”,而另一人则认为其“比无用还糟糕”。

通过隐式代码生成和其他增强功能,如支持新语言、多模式查询和图像生成,Google回应了批评——并试图扭转局面。

不过,它是否足以跟上该领域领先的生成式 AI 聊天机器人的步伐还有待观察。 最近,Anthropic 推出了一个人工智能聊天机器人模型,它具有大大扩展的“上下文窗口”,这使得模型可以相对连贯地交谈数小时甚至数天,而不是几分钟。 ChatGPT 背后的开发者 OpenAI 已经开始支持使用外部知识和技能增强 ChatGPT 的插件。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan