谷歌推出第五代AI芯片:训练和运行AI模型的速度提高5倍
Google第五代定制张量处理器(TPU)芯片TPU v5e用于大模型训练和推理,训练和运行AI模型的速度提高了5倍。当地时间8月29日,Google在旧金山的年度云会议Google Cloud Next上发布了新的人工智能芯片,即第五代定制张量处理器(TPU)芯片TPU v5e,用于大模型训练和推理。与上一代芯片相比,TPU v5e每一美元的训练性能提高2倍,每一美元的推理性能提高2.5倍。
TPU是Google为神经网络设计的专用芯片,TPU经过优化可加快机器学习模型的训练和推断速度,2016年推出第一代TPU,2021年发布第四代定制处理器TPU,2022年面向开发者提供。云TPU(Cloud TPU)是一项Google云服务,适合训练需要进行大量矩阵计算的大型复杂深度学习模型,例如大语言模型、蛋白质折叠建模和药物研发等,帮助企业在实现AI工作负载时节省资金和时间。
此次推出的TPU v5e专为中大型模型训练和推理所需的成本效益和性能而构建。Google云表示,该版本芯片的开发重点是效率,与上一代TPU v4相比,TPU v5e每一美元的训练性能提高2倍,每一美元的推理性能提高2.5倍,而成本不到TPU v4的一半,使得更多组织能够训练和部署更大更复杂的AI模型。客户不需要通过牺牲性能或灵活性来获得这些成本效益。Google云将TPU v5e描述为“超级计算机”,最多允许256个芯片互连,总带宽超过400 Tb/s,支持八种不同的虚拟机配置,客户可选择合适的配置服务于各种大语言模型和生成式AI模型。根据速度基准测试,在TPU v5e上训练和运行AI模型时速度提高了5倍。
据科技媒体TechCrunch报道,Google云计算和机器学习基础设施副总裁兼总经理马克·洛迈尔(Mark Lohmeyer) 表示,“这是迄今为止最具成本效益且易于访问的云TPU。” 洛迈尔强调,Google云确保用户能够将其TPU集群扩展到以前无法达到的水平,让客户能够轻松扩展他们的人工智能模型,超越单个TPU集群的物理边界。也就是说,单个大型人工智能工作负载可以跨越多个物理TPU集群,扩展到数万个芯片,并且经济高效。“在云GPU和云TPU方面,我们为客户提供了很多选择和灵活性,以满足我们看到的人工智能工作负载的广泛需求。”
除了新一代TPU,Google云还宣布将在下个月推出基于英伟达H100 GPU的A3系列虚拟机,作为GPU超级计算机进行交付,为人工智能大模型提供动力。