院况简介
1949年,伴随着新中国的诞生,中国科学院成立。
作为国家在科学技术方面的最高学术机构和全国自然科学与高新技术的综合研究与发展中心,建院以来,中国科学院时刻牢记使命,与科学共进,与祖国同行,以国家富强、人民幸福为己任,人才辈出,硕果累累,为我国科技进步、经济社会发展和国家安全做出了不可替代的重要贡献。 更多简介 +
院领导集体
创新单元
科技奖励
科技期刊
工作动态/ 更多
中国科学院学部
中国科学院院部
语音播报
一般来说,求解深度模型参数的训练算法具有两个重要的性能指标:算法的收敛速度和泛化能力。目前,应用较广泛的训练算法是随机梯度下降算法(SGD)和学习率自适应的随机梯度下降算法(如Adam和AdaBelief),其中SGD具有良好的泛化能力,但是收敛速度缓慢;Adam和AdaBelief具有较快的收敛速度,但是泛化能力不如SGD。因此,使优化算法同时具备良好的泛化能力和快速的收敛速度是深度学习领域内的研究热点之一。
中国科学院苏州纳米技术与纳米仿生研究所研究员刘欣等针对学习率自适应的随机梯度下降算法Adabief在强凸条件下的收敛速度是否可以进一步提高的问题进行了首次尝试,并给出了肯定的答案。团队利用损失函数的强凸性,提出了一种新的算法FastAdaBelief(图1),该算法在保持良好的泛化能力的同时,具有更快的收敛速度。
图1 FastAdaBelief算法伪代码
该团队根据理论证明的结果,进行了一系列的实验研究,验证了所提出的算法的优越性。首先,在softmax回归问题上的实验验证了FastAdaBelief比其他算法的收敛速度更快(图2);然后,在CIFAR-10数据集上完成了多组图像分类任务,结果表明,在实验对比算法中,FastAdaBelief具有最快的收敛速度(图3),并且具有最好的泛化能力(图4);最后,在Penn Treebank数据集上的文本预测任务中,FastAdaBelief算法可以最快训练出深度模型,并且得出的模型具有最小的混沌度(图5)。重要的是,该团队发现FastAdaBelief在损失函数为强凸和非凸的情况下收敛速度都是最快的,因此证明了它作为一种新的基准优化算法的巨大潜力,可以广泛应用于各种深度学习场景中。
图2 softmax回归问题中各算法的收敛速度对比
图3 CIFAR-10数据集上各算法的收敛速度对比
图4 CIFAR-10数据集上各算法的泛化能力对比
图5 Penn Treebank数据集上各算法的收敛速度对比
该研究工作从理论上证明了FastAdaBelief的收敛速度比其他自适应优化算法快,并且通过大量实验验证了该算法的泛化能力比其他自适应优化算法强,这可以帮助完成很多场景下的深度模型训练任务,尤其是在样本数据短缺、硬件计算算力不足的情况下。因此,在材料科学研究领域和人工智能芯片研发领域都具有很大的应用前景。
相关工作以FastAdaBelief: Improving Convergence Rate for Belief-based Adaptive Optimizers by Exploiting Strong Convexity为题发表在IEEE Transactions on Neural Networks and Learning Systems上。
扫一扫在手机打开当前页
© 1996 - 2025 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)
© 1996 - 2025 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)
© 1996 - 2025 中国科学院 版权所有
京ICP备05002857号-1京公网安备110402500047号
网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话:86 10 68597114(总机)
86 10 68597289(总值班室)