结合领域知识的因子分析:在金融风险模型上的应用

引用本文
冯栩, 喻文健, 李凌. 结合领域知识的因子分析:
在金融风险模型上的应用. 自动化学报, 2022,
Feng Xu, Yu Wen-Jian, Li Ling.
Combining domain knowledge with statistical factor analysis: An
application to financial risk modeling. Acta Automatica Sinica,
2022,
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200342?viewType=HTML
文章简介
关键词
因子分析, 基本面因子, 领域知识, 风险模型, 期望最大化过程
摘
因子分析是一种在工业领域广泛使用的统计学方法. 在金融资产管理中, 因子分析通过对历史价格波动的极大似然估计推导自适应的统计学因子来生成风险模型. 与通过使用预先设定具有经济学含义的因子来生成风险模型的基本面因子模型相比, 通过因子分析生成的模型不仅更灵活, 还能发现在基本面模型中缺失的因子. 然而, 由于因子分析所生成模型中的统计学因子缺少可解释性, 因此当金融数据中存在显著噪音时容易过拟合. 针对中国股市数据的风险模型生成问题, 本文提出快速因子分析算法以及将基本面因子结合到因子分析中的挑选基本面因子的混合因子分析方法, 使风险模型同时在因子探索及模型可解释性上达到最优. 实验结果显示快速因子分析方法能够达到31倍以上的加速比, 且新混合因子分析方法能够增大人造数据集以及真实数据集上预测的对数似然估计值. 在真实数据集上, 新方法能最好够达到平均对数似然估计值12.00, 比因子分析构建模型的7.56大4.44, 并且两个算法均值差值的标准差为1.58, 表现出新方法能构建更准确的风险模型.
引
金融分析中, 风险管理对于合理地保护资产十分重要. 通常, 资产价值的波动性被定义为风险, 而风险管理的目的则是合理的评估资产的波动性. 风险模型(Risk model)是风险管理的重要方法, 而多因子模型(Multiple-factor model)是一种能够有效分析资产风险的风险模型. 多因子模型假设资产的回报被若干因子影响, 例如国家经济水平、工业领域周期以及公司财务指标等等具有经济学含义的基本面因子, 或者通过统计学方法计算出的统计学因子, 其一般形式为

其中,y_i是第i个资产的回报(i=1,,m);

其中,
基本面因子模型(Fundamental factor
model)和统计学因子模型(Statistical factor model)是两类经典的多因子模型,
目前仍被广泛应用于金融分析领域. 基本面因子模型使用观测到的领域知识在资产上的暴露, 例如股息率、市盈率、市销率等等,
求出这些领域知识因子(基本面因子)的数值和残差来生成风险模型. 这些已知的基本面因子通常含有确切的经济学含义,
因此得到的模型具有很强的可解释性, 而模型的可解释性是对模型性能的重要保证.
文献[2,
本文针对中国股市风险评估问题, 将基本面因子暴露整合到统计学因子分析中提出一种新的混合因子分析方法生成中国股票的风险模型. 首先, 本文提出一种快速因子分析算法. 其次, 修改因子分析的期望最大化过程使其包含基本面因子暴露及一个用来调整基本面因子的大小和相关性的方阵, 从而推导出新的混合因子分析算法. 最后, 基于混合因子分析算法提出了近似最优的基本面因子挑选算法, 并将其与混合因子分析算法结合得到挑选基本面因子的混合因子分析算法. 我们使用三个人造数据集和一个真实数据集来测试本文所提出算法的性能, 实验结果表明快速因子分析算法在第一个人造数据集上能够带来31倍以上的加速比, 并且本文提出的挑选基本面因子的混合因子分析算法能够有效地构建准确且稳定的风险模型. 在所有的人造数据集上, 使用我们的挑选基本面因子的混合因子分析算法得到的风险模型的对数似然估计值(Log-likelihood)的均值都要大于统计学因子分析生成的模型, 并且标准差基本相同甚至更小; 在真实数据集上, 该方法得到平均对数似然估计值为12.00, 比因子分析构建模型的7.56大4.44, 同时前者的平均对数似然估计值的标准差为8.25, 小于因子分析的9.06.
本文的剩余部分按照如下组织: 第1节为基于期望最大化过程的统计学因子分析的介绍; 第2节介绍我们的混合因子分析算法; 第3节为实验结果; 最后一节为全文的总结.

图
作者简介
冯
清华大学计算机科学与技术系博士研究生. 2017年获得清华大学计算机科学与技术系学士学位. 主要研究方向为数值线性代数算法, 机器学习, 大数据分析.
E-mail: fx17@mails.tsinghua.edu.cn
喻文健
清华大学计算机科学与技术系长聘教授. 2003年获得清华大学计算机科学与技术系博士学位, 随后留校任教. 主要研究方向为集成电路计算机辅助设计算法, 机器学习, 大数据分析算法、数值计算及其应用. 本文通信作者.
E-mail: yu-wj@tsinghua.edu.cn
李
加州理工学院计算机科学博士(辅修电子工程). 主要研究方向为机器学习, 量化投资, 自动化交易.
E-mail: liling@flowam.com
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.e160216?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180118?viewType=HTML
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190849?viewType=HTML
[4]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190081?viewType=HTML
[5]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190121?viewType=HTML
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170363?viewType=HTML
[7]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170284?viewType=HTML
[8]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170205?viewType=HTML
[9]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150261?viewType=HTML
[10]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150459?viewType=HTML
[11]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140604?viewType=HTML
[12]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01198?viewType=HTML
[13]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01812?viewType=HTML
[14]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01068?viewType=HTML
[15]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02836?viewType=HTML
[16]
[17]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00849?viewType=HTML
[18]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00960?viewType=HTML
[19]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.01193?viewType=HTML
[20]
http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0151?viewType=HTML
[21]
http://www.aas.net.cn/cn/article/id/15759?viewType=HTML
[22]
http://www.aas.net.cn/cn/article/id/14544?viewType=HTML
[23]
http://www.aas.net.cn/cn/article/id/15254?viewType=HTML