Mistral发布首个代码生成人工智能模型Codestral 但不可用于商业活动

由微软支持、估值高达 60 亿美元的法国人工智能初创公司 Mistral发布了首个用于编码的生成式人工智能模型，名为 Codestral。Codestral 与其他代码生成模型一样，旨在帮助开发人员编写代码并与之交互。

Mistral 在一篇博文中解释说，它接受过 80 多种编程语言的训练，包括 Python、Java、C++ 和 JavaScript。Codestral 可以完成编码功能、编写测试和"填充"部分代码，还能用英语回答有关代码库的问题。

Mistral 将这种模式描述为"开放"，但这还有待商榷，因为这家初创公司的许可证禁止将 Codestral 及其产出用于任何商业活动。虽然有"开发"的例外，但即使是"开发"也有注意事项：许可证明确禁止"员工在公司业务活动中的任何内部使用"，究其原因可能是 Codestral 部分训练内容受版权保护。Mistral 在博文中没有证实或否认这一点，但这并不奇怪；有证据表明，这家初创公司以前的训练数据集包含版权数据。

无论如何，Codestral 可能不值得这么麻烦。该模型有 220 亿个参数，需要一台强大的电脑才能运行。(参数基本上决定了人工智能模型处理问题的能力，比如分析和生成文本）。虽然根据一些基准测试（我们都知道，这些基准测试并不可靠），该模型击败了竞争对手，但这并不能说明它有多厉害。

虽然 Codestral 对大多数开发人员来说并不实用，而且在性能提升方面也是渐进式的，但它肯定会引发关于依赖代码生成模型作为编程助手是否明智的争论。

至少在某些编码任务中，开发人员肯定会使用生成式人工智能工具。在 2023 年 6 月的 Stack Overflow民意调查中，44% 的开发人员表示，他们现在在开发过程中使用人工智能工具，26% 的开发人员计划不久后使用。然而，这些工具有明显的缺陷。

GitClear 对过去几年中提交到项目仓库的超过 1.5 亿行代码进行了分析，发现生成式人工智能开发工具正在导致更多错误代码被推送到代码库中。普渡大学的一项研究显示，OpenAI 的 ChatGPT对编程问题给出的答案有一半以上是错误的。

但这并不能阻止 Mistral 等公司试图将其模式货币化（并获得心智份额）。今天上午，Mistral在其Le Chat对话式人工智能平台上推出了托管版Codestral以及付费API。Mistral表示，它还致力于将Codestral纳入LlamaIndex、LangChain、Continue.dev和Tabnine等应用框架和开发环境。