Stability AI推出了更小、更高效的Stable LM 2 1.6B语言模型

说到大型语言模型（LLM），规模当然很重要，因为它影响到模型的运行位置。稳定人工智能公司（Stability AI）是一家以稳定扩散文本到图像生成人工智能技术而闻名的厂商，该公司今天发布了迄今为止最小的模型之一--Stable LM 2 1.6B。

nuneybits_A_minimal_line_drawing_shows_a_stack_of_colored_block_5ee7ae5f-07b1-4327-8db8-f4337b337988-transformed.webp

Stable LM是一种文本内容生成 LLM，稳定人工智能公司于 2023 年 4 月首次推出了 30 亿和 70 亿参数模型。新的 StableLM 模型实际上是 Stability AI 在 2024 年发布的第二个模型，此前该公司在本周早些时候发布了 Stable Code 3B。

新的 Stable LM 模型结构紧凑、功能强大，旨在降低门槛，让更多开发人员能够参与到生成式人工智能生态系统中，并将英语、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语等七种语言的多语言数据纳入其中。该模型利用语言建模方面的最新算法进步，实现了 Stability AI 所希望的速度与性能之间的最佳平衡。

Stability AI 公司语言团队负责人卡洛斯-里克尔梅（Carlos Riquelme）告诉 VentureBeat："一般来说，在类似数据上用类似的训练配方训练出来的大型模型往往比小型模型表现更好。不过，随着时间的推移，随着新模型能够实现更好的算法，并在更多和更高质量的数据上进行训练，我们有时会看到最近的较小模型表现优于旧的较大模型。"

据 Stability AI 称，该模型在大多数基准测试中的表现都优于其他参数低于 20 亿的小型语言模型，包括微软的 Phi-2（27 亿）、 TinyLlama 1.1B 和 Falcon 1B。较小的新型 Stable LM 甚至能够超越一些较大的型号，包括 Stability AI 早先推出的 Stable LM 3B 型号。

Riquelme 说："Stable LM 2 1.6B。比几个月前训练的一些更大的型号性能更好。考虑到电脑、电视机或微型芯片类似的趋势，它们随着时间的推移变得更小、更薄、更好。"

需要明确的是，较小的 Stable LM 2 1.6B 由于体积小，因而确实存在一些缺点。由于小型、低容量语言模型的特性，Stable LM 2 1.6B 可能同样会表现出一些常见问题，如高幻觉率或潜在的有毒语言。

在过去几个月里，Stability AI 一直在研究更小更强大的 LLM 选项。2023 年 12 月， StableLM Zephyr 3B型号发布，与 4 月份发布的初始型号相比，它的尺寸更小，但性能更强。

新的 Stable LM 2 模型在更多数据上进行了训练，包括除英语外的 6 种语言（西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语）的多语言文档。Riquelme 强调的另一个有趣的方面是在训练过程中向模型展示数据的顺序。他指出，在不同的训练阶段关注不同类型的数据可能会有所收获。

Stable_LM_2_1.6B_Multilingual__Leaderboard.png

更进一步的是，Stability AI 正在提供预训练和微调选项的新模型，以及一种研究人员称之为"......预训练冷却前的最后一个模型检查点"的格式。

里克尔梅说："我们的目标是为个人开发者提供更多的工具和工件，以便他们在现有模型的基础上进行创新、改造和构建。在这里，我们提供了一个具体的半成品模型供人们使用。"

在训练过程中，模型会依次更新，其性能也会随之提高。在这种情况下，第一个模型什么都不知道，而最后一个模型已经消耗了数据的大部分内容，并有望学到这些内容。同时，模型在训练快结束时可能会变得不那么灵活，因为它们是被迫结束学习的。

他说："我们决定在开始最后一个阶段的训练之前，以目前的形式提供模型，这样--希望--可以更容易地将它专门用于人们可能想要使用的其他任务或数据集。我们不确定这样做的效果是否会很好，但我们真的相信人们有能力以令人惊叹的方式利用新工具和模型。"