当前位置：主页 > 学术动态 >

同伦方法在机器学习领域的尝试

点击数: 更新日期: 2023-08-22

中文题目：同伦方法在机器学习领域的尝试

论文题目：An attempt to apply the homotopy method to the domain of machine learning

录用期刊/会议：【Expert Systems With Applications】 (JCR Q1-Top)

原文DOI：https://doi.org/10.1016/j.eswa.2023.121098

原文链接：https://doi.org/10.1016/j.eswa.2023.121098

录用/见刊时间：2023.7.31

作者列表：

1）刘洋洋中国石油大学（北京）信息科学与工程学院控制科学与工程研20

2）刘建伟中国石油大学（北京）信息科学与工程学院自动化系教师

文章简介:

摘要:

机器学习领域的核心目标是通过最小化真实值和预测值之间的差。为了实现这一目标，研究人员提出了损失函数作为学习的度量标准，并将其与优化算法相结合。在机器学习领域，研究人员常使用梯度下降作为优化方法，因其计算复杂度较小，并且在提供可接受的精度范围内工作。然而，梯度下降方法可能导致算法发散。为了解决这个问题，本文提出了一种同伦分析方法。该方法通过引入控制迭代模型参数收敛的参数，确保算法能够有效地收敛。实验结果表明，本文的算法不仅能够保证收敛性，还能够减少迭代次数，提高学习效率。

背景与动机:

梯度下降算法的中心思想是随着迭代次数的递增，不断调整神经网络的权值，得到使损失函数最小化的权重值。然而，由于机器学习中大部分的损失函数都是多变量非线性函数，传统解析方法在求解非线性问题时往往需要将问题转化为多个线性子问题的序列，再用线性组合的方式来求解原问题的解。因此，传统解析方法在处理强非线性问题时应用效果较差，容易发散。此外，梯度下降算法的运算复杂度也相对较高，与迭代次数的平方成正比。

为了缓解强非线性问题上传统解析方法的不足，本文将拓扑领域同伦的概念引入多变量非线性损失函数求解任务中，开展了基于同伦的损失函数求解算法研究。为了验证这种新的求解方案的效果，本文将在传统机器学习与深度学习两个领域以及多个真实数据集上进行实验，验证本文提出的算法在各项性能指标上的优势。

设计与实现:

HAM算法的推理过程如下所示：

首先，定义两个假设。

假设1

与

的欧拉示性数相同，即

与

同伦。

假设2 麦克劳林级数在

处收敛。

若假设1成立，根据同伦方程和同伦函数的定义，可以获得

对应的同伦方程和同伦函数，它们分别如公式（1）和（2）所示。根据这些定义和公式，可以得出HAM算法的零阶同伦变形公式，即公式（3）。根据同伦分析法可知，公式（3）中

是关于

的函数，表示为

。因此，零阶同伦变形等式可以改写为公式（4）。

（1）

（2）

（3）

（4）

根据同伦的概念可知，当公式（3.4）中的

时，处于零阶同伦变形等式的初始解处，即变形开始位置；

时，处于零阶同伦变形等式的最优解处，即变形结束位置，如公式（5）所示。

（5）

为了使得级数解收敛或寻找最优的级数解，本文使用了迭代的方法，故而HAM算法的一阶迭代公式如公式（6）所示。同理可得，HAM算法的二阶、三阶迭代公式，分别如公式（7）、（8）所示。

（6）

（7）

（8）

实验结果及分析:

(a) The iris Dataset

(b) The Haberman’s Survival Dataset

(d) The Statlog (Heart) Dataset

(e) The Bank-marketing-Analysis Dataset

(f) The Ionosphere Dataset

(g) The Sonar Dataset

图1. 梯度下降法和一阶HAM随迭代次数的变化曲线。图中，D-loss曲线表示采用梯度下降法的logistic损失函数随迭代次数的曲线，F-loss曲线表示采用HAM算法的logistic损失函数随迭代次数的曲线。

图2. 不同数据集上无收敛控制参数(F-LOSS)和有收敛控制参数(0.1,0.52,0.6,1.14)的HAM代价函数迭代曲线。在图中的横轴上，1代表Haberman的生存数据集，2代表皮马印第安人糖尿病数据集，3代表Statlog(心脏)数据集，4代表银行营销分析数据集，5代表电离层数据集，6代表声纳数据集。

结论:

本文提出了一种新的迭代方法——HAM算法——优化机器学习中损失函数的模型参数。HAM算法的收敛控制参数可以很好地控制模型参数的收敛，防止发散。实验证明HAM算法在迭代次数和收敛性方面优于传统算法（如梯度下降）。

通讯作者简介:

刘建伟。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。在国际国内期刊上和国际国内会议上发表学术研究论文260多篇，其中三大检索200多篇。