近日,百度硅谷人工智能实验室(SVAIL)开源了可以让人工智能软件运行更高效的关键代码Warp-CTC。百度将其中基于Apache 协议,Warp-CTC 的C语言库和可选Torch绑定等重要组件上传至GitHub(https://github.com/baidu-research/warp-ctc),供开发者下载使用。
( 百度硅谷人工智能实验室科学家介绍本次开源 )
此举将加快推进深度学习研究者的研发成果,大幅提高人工智能开发速度,让端到端的深度学习变得简单、快速。
(百度硅谷人工智能实验室技术博客)
深度学习是人工智能的一个分支学科,它可以让计算机像人脑一样趋于智能化,将所听、所看、所想准确无误地转换成文字。但其难点在于机器训练。犹如解数学题,每个类型的题目均有一套固有的解法,若想掌握,则需要不断摸索与练习,机器训练亦是如此。CTC便是机器“解题”的方法之一,如今已广泛运用于深度学习训练中。它是一种无需了解输入输出对齐原理即可与序列预测监督训练同步执行的对象函数。
机器学习运用了统计学、概率论等基础学科理论,对数据集进行大量运算。但据SVAIL工程师介绍,目前主流的CTC训练通常需要耗费大量的存储资源,且训练速度缓慢。百度在构建深度语音端对端系统的过程中发明了Warp-CTC方法,进而使用CTC提高模型的可伸缩性。并希望通过开源Warp-CTC,打造更容易、更快速的深度学习系统。Warp-CTC的优势在于它可直接用在现有的人工智能框架中,不仅比普通CTC训练快百倍,还能够大幅提高人工智能开发速度。
百度的Warp-CTC代码,本质上是根据几年前开发的深度学习算法改进实现的。该算法运用C语言编译,并做了集成化处理。它可以解决绘制输入序列到输出序列图谱过程中的监督难题,应用于语音识别技术中。去年10月,百度便向公众介绍了百度最新研发出的语音识别技术,将连接时序分类(CTC)训练嵌入到传统的语音识别建模框架中,使汉语安静环境普通话语音识别的识别率接近97%,大幅度提升线上语音识别产品性能。百度近期公布的深度语音识别系统Deep Speech 2比大多数人更善于正确地识别语音,且为百度的无数用户提供了一种更好的接入服务的方式,特别是在移动端。
百度的Warp-CTC算法能在当今最新型的计算机芯片上快速运行得益于其在技术架构上的突破。百度研究院首席科学家吴恩达称他的研究主要是人工神经网络如何在图形处理单元(GPUs)上运行,让Warp-CTC实现对GPUs和X86 CPUs的支持。
据悉,百度海量数据资源提升了神经网络的训练效果。百度创新性的利用大量GPU组成HPC(高性能计算机群),用其训练深度学习。研究人员通过提高GPU的使用效率,从而提升训练神经网络的速度及规模。在吴恩达看来,百度在HPC的研究已处于世界领先地位。
百度方面表示,希望通过机器学习社区GitHub继续优化Warp-CTC的能力。未来百度还将开放更多关于人工智能的开源工具,供开发者使用,充分发挥科技公司领军作用,为机器学习研究做出贡献。