加载中…
个人资料
Automation_2011
Automation_2011
  • 博客等级:
  • 博客积分:0
  • 博客访问:134,862
  • 关注人气:67
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

结合领域知识的因子分析:在金融风险模型上的应用

(2022-04-13 10:07:55)

引用本文

 


冯栩, 喻文健, 李凌. 结合领域知识的因子分析: 在金融风险模型上的应用. 自动化学报, 2022, 48(1): 121−132 doi: 10.16383/j.aas.c200342

Feng Xu, Yu Wen-Jian, Li Ling. Combining domain knowledge with statistical factor analysis: An application to financial risk modeling. Acta Automatica Sinica, 2022, 48(1): 121−132 doi: 10.16383/j.aas.c200342

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200342?viewType=HTML


文章简介


关键词


因子分析, 基本面因子, 领域知识, 风险模型, 期望最大化过程


摘   


因子分析是一种在工业领域广泛使用的统计学方法. 在金融资产管理中, 因子分析通过对历史价格波动的极大似然估计推导自适应的统计学因子来生成风险模型. 与通过使用预先设定具有经济学含义的因子来生成风险模型的基本面因子模型相比, 通过因子分析生成的模型不仅更灵活, 还能发现在基本面模型中缺失的因子. 然而, 由于因子分析所生成模型中的统计学因子缺少可解释性, 因此当金融数据中存在显著噪音时容易过拟合. 针对中国股市数据的风险模型生成问题, 本文提出快速因子分析算法以及将基本面因子结合到因子分析中的挑选基本面因子的混合因子分析方法, 使风险模型同时在因子探索及模型可解释性上达到最优. 实验结果显示快速因子分析方法能够达到31倍以上的加速比, 且新混合因子分析方法能够增大人造数据集以及真实数据集上预测的对数似然估计值. 在真实数据集上, 新方法能最好够达到平均对数似然估计值12.00, 比因子分析构建模型的7.56大4.44, 并且两个算法均值差值的标准差为1.58, 表现出新方法能构建更准确的风险模型.


引   


金融分析中, 风险管理对于合理地保护资产十分重要. 通常, 资产价值的波动性被定义为风险, 而风险管理的目的则是合理的评估资产的波动性. 风险模型(Risk model)是风险管理的重要方法, 而多因子模型(Multiple-factor model)是一种能够有效分析资产风险的风险模型. 多因子模型假设资产的回报被若干因子影响, 例如国家经济水平、工业领域周期以及公司财务指标等等具有经济学含义的基本面因子, 或者通过统计学方法计算出的统计学因子, 其一般形式为

结合领域知识的因子分析:在金融风险模型上的应用
其中,y_i是第i个资产的回报(i=1,,m); x_j表示第j个因子的数值(j=1,,k); c_ij 表示第j个因子对于第i个资产影响程度, 被称为第i个资产在第j个因子上的暴露; 而r_i 表示第i个资产的非因子回报, 通常被看做拟合残差. 式(1)显示所有资产回报都被k个相同因子驱动, 并且这些因子反映资产间的相关性以及内在的波动性. 每个因子x_j 和残差r_i是不相关的, 且每个残差r_i之间也不相关. 通过式(1), 可以推导出风险的表达式:
结合领域知识的因子分析:在金融风险模型上的应用
其中, var(y)代表m个资产回报y=[y_1,,y_m]^T的协方差, C∈R^m×k 是m个资产对k个因子x=[x_1,,x_k]^T的暴露矩阵, X∈R^k×k是因子x的协方差矩阵, 而对角阵R∈R^m×m是残差矩阵. 风险模型的生成则是通过实际观测到的回报和一些分布假设在限制因子数目的情况下计算出式(2)中的C、X和R得到风险矩阵, 再通过风险矩阵来进行资产的选择和配置来规避风险从而最大化回报. 通常情况下, 风险模型需要每隔一天或者更短的时间生成一次, 用于下一时段的资产选择和配置.


基本面因子模型(Fundamental factor model)和统计学因子模型(Statistical factor model)是两类经典的多因子模型, 目前仍被广泛应用于金融分析领域. 基本面因子模型使用观测到的领域知识在资产上的暴露, 例如股息率、市盈率、市销率等等, 求出这些领域知识因子(基本面因子)的数值和残差来生成风险模型. 这些已知的基本面因子通常含有确切的经济学含义, 因此得到的模型具有很强的可解释性, 而模型的可解释性是对模型性能的重要保证. 文献[2, 9]使用最小二乘法生成基本面因子模型进行风险资产评估, 并针对不同的真实数据进行了实验, 显示出基本面因子模型的优良性能. 然而由于能观测到的基本面因子数量有限, 且不是都对生成风险模型有价值, 因此文献[2, 9]中方法需要手动挑选合适的基本面因子来生成更好的风险模型. 统计学因子模型则使用因子分析(Factor analysis)生成模型, 其通常采用期望最大化过程(Expectation-maximization process)来计算统计学因子及其暴露. 尽管统计学因子模型生成的因子没有确切的经济学含义, 容易在数据噪音较大时过拟合, 却能够捕捉到基本面因子模型中缺失的因子及其暴露. 由于基本面因子模型具有很强的可解释性, 而统计学因子模型可以捕捉到隐藏在回报中的因子, 因此需要构造一个结合领域知识且包含统计学因子的混合因子分析算法用来生成更准确的风险模型.


本文针对中国股市风险评估问题, 将基本面因子暴露整合到统计学因子分析中提出一种新的混合因子分析方法生成中国股票的风险模型. 首先, 本文提出一种快速因子分析算法. 其次, 修改因子分析的期望最大化过程使其包含基本面因子暴露及一个用来调整基本面因子的大小和相关性的方阵, 从而推导出新的混合因子分析算法. 最后, 基于混合因子分析算法提出了近似最优的基本面因子挑选算法, 并将其与混合因子分析算法结合得到挑选基本面因子的混合因子分析算法. 我们使用三个人造数据集和一个真实数据集来测试本文所提出算法的性能, 实验结果表明快速因子分析算法在第一个人造数据集上能够带来31倍以上的加速比, 并且本文提出的挑选基本面因子的混合因子分析算法能够有效地构建准确且稳定的风险模型. 在所有的人造数据集上, 使用我们的挑选基本面因子的混合因子分析算法得到的风险模型的对数似然估计值(Log-likelihood)的均值都要大于统计学因子分析生成的模型, 并且标准差基本相同甚至更小; 在真实数据集上, 该方法得到平均对数似然估计值为12.00, 比因子分析构建模型的7.56大4.44, 同时前者的平均对数似然估计值的标准差为8.25, 小于因子分析的9.06.


本文的剩余部分按照如下组织: 第1节为基于期望最大化过程的统计学因子分析的介绍; 第2节介绍我们的混合因子分析算法; 第3节为实验结果; 最后一节为全文的总结.


结合领域知识的因子分析:在金融风险模型上的应用
图  算法1、算法3和算法6 (r=0.9)前30天风险模型在真实数据集上预测的对数似然估计值的结果


作者简介


冯   

清华大学计算机科学与技术系博士研究生. 2017年获得清华大学计算机科学与技术系学士学位. 主要研究方向为数值线性代数算法, 机器学习, 大数据分析.

E-mail: fx17@mails.tsinghua.edu.cn


喻文健

清华大学计算机科学与技术系长聘教授. 2003年获得清华大学计算机科学与技术系博士学位, 随后留校任教. 主要研究方向为集成电路计算机辅助设计算法, 机器学习, 大数据分析算法、数值计算及其应用. 本文通信作者.

E-mail: yu-wj@tsinghua.edu.cn


李   

加州理工学院计算机科学博士(辅修电子工程). 主要研究方向为机器学习, 量化投资, 自动化交易.

E-mail: liling@flowam.com


相关文章


[1]   席燕辉, 彭辉, 莫红. 基于EM-EKF算法的RBF-AR模型参数估计. 自动化学报, 2017, 43(9): 1636-1643. doi: 10.16383/j.aas.2017.e160216

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.e160216?viewType=HTML


[2]   马新科, 杨扬, 杨昆, 罗毅. 基于模糊形状上下文与局部向量相似性约束的配准算法. 自动化学报, 2020, 46(2): 342-357. doi: 10.16383/j.aas.c180118

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180118?viewType=HTML


[3]   姚红革, 董泽浩, 喻钧, 白小军. 深度EM胶囊网络全重叠手写数字识别与分离. 自动化学报, DOI: 10.16383/j.aas.c190849

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190849?viewType=HTML


[4]   余海燕, 陈京京, 邱航, 王永, 王若凡. 嵌套删失数据期望最大化的高斯混合聚类算法. 自动化学报, 2021, 47(6): 1302-1314. doi: 10.16383/j.aas.c190081

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190081?viewType=HTML


[5]   阿依夏木 ·力提甫, 鄢煜尘, 肖进胜, 江昊, 姚渭箐. 基于混合码本与因子分析的文本独立笔迹鉴别. 自动化学报, 2021, 47(9): 2276-2284. doi: 10.16383/j.aas.c190121

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190121?viewType=HTML


[6]   张建朋, 裴雨龙, 刘聪, 李邵梅, 陈鸿昶. 基于因子图模型的动态图半监督聚类算法. 自动化学报, 2020, 46(4): 670-680. doi: 10.16383/j.aas.c170363

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170363?viewType=HTML


[7]   邹耀斌, 雷帮军, 臧兆祥, 王俊英, 胡泽海, 董方敏. 归一化互信息量最大化导向的自动阈值选择方法. 自动化学报, 2019, 45(7): 1373-1385. doi: 10.16383/j.aas.2018.c170284

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170284?viewType=HTML


[8]   吴强, 董雁, 吴域西, 谢丽萍. 基于概念格因子分解的零件三维CAD模型检索. 自动化学报, 2019, 45(2): 407-419. doi: 10.16383/j.aas.c170205

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170205?viewType=HTML


[9]   黄立威, 李彩萍, 张海粟, 刘玉超, 李德毅, 刘艳博. 一种基于因子图模型的半监督社区发现方法. 自动化学报, 2016, 42(10): 1520-1531. doi: 10.16383/j.aas.2016.c150261

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150261?viewType=HTML


[10]   苏亮亮, 唐俊, 梁栋, 王年. 基于最大化子模和RRWM的视频协同分割. 自动化学报, 2016, 42(10): 1532-1541. doi: 10.16383/j.aas.2016.c150459

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150459?viewType=HTML


[11]   许美玲, 韩敏. 多元混沌时间序列的因子回声状态网络预测模型. 自动化学报, 2015, 41(5): 1042-1046. doi: 10.16383/j.aas.2015.c140604

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140604?viewType=HTML


[12]   孙新建, 张雄伟, 杨吉斌, 曹铁勇, 钟新毅. 基于双因子高斯过程动态模型的声道谱转换方法. 自动化学报, 2014, 40(6): 1198-1207. doi: 10.3724/SP.J.1004.2014.01198

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01198?viewType=HTML


[13]   杨绪魁, 屈丹, 张文林. 正交拉普拉斯语种识别方法. 自动化学报, 2014, 40(8): 1812-1818. doi: 10.3724/SP.J.1004.2014.01812

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01812?viewType=HTML


[14]   许云飞, 杨海, 周若华, 颜永红. 高斯PLDA在说话人确认中的应用及其联合估计. 自动化学报, 2014, 40(6): 1068-1074. doi: 10.3724/SP.J.1004.2014.01068

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01068?viewType=HTML


[15]   鹿文鹏, 黄河燕, 吴昊. 基于领域知识的图模型词义消歧方法. 自动化学报, 2014, 40(12): 2836-2850. doi: 10.3724/SP.J.1004.2014.02836

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02836?viewType=HTML


[16]  程玉虎, 冯涣婷, 王雪松. 基于参数探索的期望最大化策略搜索. 自动化学报, 2012, 38(1): 38-45. doi: 10.3724/SP.J.1004.2012.00038

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.00038?viewType=HTML


[17]   何亮, 史永哲, 刘加. 联合因子分析中的本征信道空间拼接方法. 自动化学报, 2011, 37(7): 849-856. doi: 10.3724/SP.J.1004.2011.00849

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00849?viewType=HTML


[18]   高彦宇, 尹怡欣, UOZUMI Takashi. 一种基于支持向量机和半监督期望最大化算法的分级图像标识方法. 自动化学报, 2010, 36(7): 960-967. doi: 10.3724/SP.J.1004.2010.00960

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00960?viewType=HTML


[19]   郭武, 李轶杰, 戴礼荣, 王仁华. 说话人识别中的因子分析以及空间拼接. 自动化学报, 2009, 35(9): 1193-1198. doi: 10.3724/SP.J.1004.2009.01193

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.01193?viewType=HTML


[20]   杨炳儒, 李晋宏, 宋威, 李欣. 面向复杂系统的知识发现过程模型KD(D&K)及其应用. 自动化学报, 2007, 33(2): 151-155. doi: 10.1360/aas-007-0151

http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0151?viewType=HTML


[21]   雷明, 韩崇昭. 基于期望最大化算法的自适应噪声交互多模型滤波. 自动化学报, 2006, 32(1): 28-37.

http://www.aas.net.cn/cn/article/id/15759?viewType=HTML


[22]   毛宗源, 狄琤. 自调整比例因子Fuzzy控制器控制工业锅炉燃烧过程. 自动化学报, 1991, 17(5): 611-615.

http://www.aas.net.cn/cn/article/id/14544?viewType=HTML


[23]   韩京清, 陈晓东. 两个多项式阵最大公因子的计算. 自动化学报, 1985, 11(1): 94-97.

http://www.aas.net.cn/cn/article/id/15254?viewType=HTML


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有