据盖亚汽车新闻报道,沙特阿拉伯阿卜杜拉国王科学技术大学( kaust )的研究人员发现了一种大幅提高训练速度的方法。 使用大规模训练数据库的分布式机器学习通过注意结果为零的频率,可以大幅提高大规模机器学习模型的训练速度。
的1和0 (图像源:技术浏览器) ) )。
ai模型通过在数据库中训练来开发“智能”,但这类数据库都是事先标记好的,告知模型如何区分不同的输入新闻,并做出相应的反应。 输入的标记数据越多,模型就越擅长完成指配的任务。 许多复杂的深度学习APP应用(如自动驾驶汽车)需要大量的输入数据库和较长的培训时间,即使使用强大而昂贵的高级并行超级计算平台也是如此。
在培训期间,小的学习任务被分配到几十个或几百个计算节点,在执行以下任务之前,这些计算节点通过通信互联网共享结果。 在这种并行计算任务中,计算量消耗最多的来源之一是各模型步骤中计算节点之间的通信。
kaust的研究人员表示:“在分布式深度学习中,通信是最重要的性能瓶颈。 也可以看到随着模型规模的迅速增加,学习过程中零值发生的比例增加,称为稀疏性。 我们的想法是利用这个稀疏性,只发送非零数据块,从而尽量提高比较有效的带宽采用效率。 ”
基于kaust早期开发的switchml方法,通过解决数据传输的互联网交换机执行有效的统一代码来优化节点之间的通信,从而使研究人员意识到结果为零,在不中断并行计算的情况下同时减少传输,进而
研究人员表示,“准确地说,如何利用稀疏性加速分散训练是个难题。 所有节点必须同时解析同一位置的数据块。 这是因为必须调整节点,使合同中只有一个位置的数据块聚集在一起。 为了克服这一问题,我们构建了一个聚合过程,以协调这类贸易商,并指导他们接下来要发送哪些数据块。 ”
该小组在由一组图形解决方案单元( gpu )组成的测试台上展示了omnireduce的方法,在典型的深度学习任务中提高了7倍的速度。
标题:“KAUST将机器学习训练速度提高7倍 有助于改进自动驾驶汽车等应用”
地址:http://www.0317jhgd.com//dfqcxw/13020.html