苹果公司的研究人员发现了一种快速训练大型语言模型(LLMs)的新型多模式方法,这种方法可以实现更灵活、更强大的机器学习和"人工智能"系统。
该公司本周早些时候在研究网站 arxiv.org 上发布的一篇研究论文显示,苹果公司使用了一种所谓的"精心混合"图像字幕、交错图像文本和纯文本数据来训练 LLM。视觉和语言数据的混合使模型能够处理智能地为图像添加标题或推断自然语言含义等任务。
研究发现,图像编码器的选择及其处理图像的分辨率对性能的影响比视觉语言连接器的设计更大。
在一个使用 300 亿参数 MM1 模型的实例中,研发人员发现了强大的上下文学习能力。这一发现意味着,只需很少的"思维链"提示,它就能对多幅图像进行多步骤推理。
据 Venturebeat 报道,在突破性技术方面,苹果公司正在延续其"快速追随者"而非"先行者"的传统。首席执行官蒂姆-库克(Tim Cook)最近承认,公司每年花费 10 亿美元将"人工智能"融入现有技术。
库克表示,公司将在今年晚些时候分享"我们正在进行的人工智能工作的细节"。预计苹果公司将在今年 6 月的 WWDC 大会上宣布一些进展情况。
在使用人工智能相关技术方面,该公司正在追赶竞争对手。它还在开发既能保护用户隐私,又能增强现有机器学习能力的方法。
后一种对隐私和安全的担忧并不是现有"聊天机器人"类型服务的特点,这也增加了苹果面临的挑战。
苹果公司对神经网络的多模型训练很感兴趣,并因此获得了最先进的性能,可以进行多步推理。这表明,该公司已经找到了一条快速提升机器学习能力并赋予其高级"智能"能力的道路。
阅读文献了解更多: