苹果推出更强大的DataComp-LM开源模型 目前处于社区研究项目阶段
苹果公司的"Apple Intelligence"研究团队发布了两个用于训练人工智能生成器的小型但性能卓越的新语言模型。机器学习团队与业内其他团队一起参加了语言模型开源 DataComp 项目,最近开发的两个模型可与 Llama 3 和 Gemma 等其他领先的训练模型相媲美,甚至更胜一筹。
这些语言模型通过提供标准框架,用于训练人工智能引擎,如 ChatGPT。这包括架构、参数和数据集过滤,以便为人工智能引擎提供更高质量的数据。
苹果公司提交给该项目的文件包括两个模型:一个较大的模型有 70 亿个参数,另一个较小的模型有 14 亿个参数。苹果的团队表示,在基准测试中,较大的模型比之前的顶级模型 MAP-Neo 性能高出 6.6%。
DataComp-LM 模型完成这些基准测试所需的计算能力降低了 40%。在使用开放数据集的模型中,该模型表现最佳,与使用私有数据集的模型相比也很有竞争力。
更值得注意的是,苹果公司完全开放了其模型--数据集、权重模型和训练代码都可供其他研究人员使用。在大规模多任务语言理解基准测试(MMLU)中,较大和较小的模型都取得了很好的成绩,足以与商业模型相抗衡。
苹果较大数据集的基准测试结果证明,与其他机型相比,它具有很强的竞争力。在今年 6 月举行的 WWDC 大会上,苹果公司首次发布了 Apple Intelligence 和 Private Cloud Compute,这让那些声称苹果公司在其设备中应用人工智能方面落后于业界的批评者哑口无言。机器学习团队在此次大会前后发表的研究论文证明,苹果公司实际上是人工智能行业的领导者。
苹果团队发布的这些模型并不打算用于任何未来的苹果产品。它们是社区研究项目,旨在展示用于训练人工智能模型的小型或大型数据集的改进效果。
苹果公司的机器学习团队此前曾与更广泛的人工智能社区分享过研究成果。这些数据集、研究笔记和其他资产都可以在 HuggingFace.co 上找到,这是一个致力于扩大人工智能社区的平台。