预测税收收入

标签:
税收收入模型预测模型 |
我国税收收入预测及方法选择
----基于多模型动态分析法
注:本文数据均由公开渠道收集整理。
摘要:本文结合我国税收收入历年数据和重点税源企业历史入库数据,利用随机森林方法选择变量,建立人工神经网络、支持向量机、多元自适应回归样条三种预测模型,通过对模型进行评估,选择最优模型对税收收入进行预测,最后提出了存在的问题和进一步改进的思路。
一、引言
2014年,因为经济运行受全球影响,存在下行的压力,税收减收因素较多,税收收入形势比较严峻,所以必须加强对税收收入信息的分析监控,增强应对税收风险的能力。同时,税收收入预测是税务各级部门制定相关征管、稽查策略的重要参考,以适应纳税人规模的不断扩大和专业化管理的逐步深入的需要。因此,迫切需要建立一套税收收入预测模型。
目前现行的税收预测模型包括回归、时间序列、人工神经网络等。这些模型的建立或是关注税收收入与相关经济要素,或是发掘税收收入自身的规律特点,有各自的适用范围和优势。但随着数据挖掘和机器学习的理论的进一步发展,各种税收预测模型有较大需要细化提高的空间,同时也存在若干难点,总结为如下两方面:
首先,预测模型需要创新研究。现行的税收预测往往基于指数平滑法、时间序列法等较为传统的预测模型,虽然时间序列法以税种自身的发展变化为重点,在这方面有着天然的优势。但是随着大数据的出现、数据挖掘的发展和机器学习的深入,涌现出支持向量机、组合建模等先进的建模的理论,需要我们引入到税收收入预测中来。
其次,模型参数需要自适应调节。比如人工神经网络具有较好的容错和容差能力,但在神经网络结构上有很多人为因素,且模型的复杂性使其不能精确预测每一个系统参数,从而导致模型的泛化能力较差。税收收入每月或每季与上一月度或季节有较强的关联性。针对上一月度或季节的数据,自适应调节模型参数,达到动态优化参数的目的,得到更好的拟合效果。
本文的研究工作是针对上述问题展开的,主要研究过程是:
□通过多模型预测税收收入。包括人工神经网络模型、支持向量机模型、ARMA模型,并通过三者的组合模型取得最优的预测效果。
□建立自适应参数调节过程。利用包含上年最新历史数据及变换来确定模型参数,预测下一年度税收收入。
二、预测模型简介
(一)神经网络模型
基于神经网络的税收收入预测问题可转化为如下的数学模型。税收收入样本序列(
,
,…,
)反应了税收收入一定滞后期的相对变化率,
为描述影响税收收入的某一指标,
(二)支持向量机模型
支持向量机模型SVM基于核的回归函数形式为:
其中,
只有一小部分不为0,它们对应的样本就是支持向量;
为支持向量的个数;
为核函数。
(三)ARIMA模型
ARIMA模型应用于预测非平稳时间序列。其一般形式为:
式中:
为关于t的任意一组时间序列;
为假定的白噪声序列。B为B
=
的延迟算子;在为差分阶数。
(四)组合模型
组合模型ANN+SVM+ARIMA就是利用ANN、SVM和ARMA三个模型预测结果,通过线性回归得出组合模型。
三 自适应参数调节
模型参数是模型拟合的关键因素,传统的做法一是凭经验固定建模参数,对样本数据进行预测,二是验证有限个数的参数后确定。本文采用动态最优法确定建模参数(见图1),令M年度税收收入
为响应变量,
…
为影响
的自变量,预测M+1年度税收收入
时,针对
…
自变量矩阵,给定模型参数的取值范围和判断标准,由程序自动选择最优参数。当预测M+2年度时,针对
…
自变量矩阵,给定模型参数的取值范围和判断标准,由程序再次自动选择最优参数。这样,通过自变量矩阵的向前跟进,动态调节模型参数,符合税收收入时间序列的特征,能进一步提高数据的预测性能。
图1:自适应参数调示意图
四 我国税收收入的实证分析
本文数据采集自中国国家统计局网站。运用R软件对1950~2013年我国税收收入建立自适应参数调节的ANN模型、SVM模型、ARIMA模型。
利用样本数据自身变化规律进行ANN和SVM模型拟合,我们需要对年度税收收入进行转换,令Xi为税收收入序列(1950<=i<=2013),Xij为第i-1年度相对于上(i-1)-j个年度的税收收入变化率,即:Xij= lag(ROC(Xi-1 , n=j), 1)。 Xi作自变量,Xij做为响应变量。
由于我国税收收入呈明显的增长趋势,在ARIMA组合模型中,税收收入为非平稳时间序列,先对税收收入序列取对数后再一阶差分平稳化。令Xi为税收收入序列对数后一阶差分,即:Xi=diff(log(税收收入))。
现用2005~2013年实际数据进行分别进行自适应参数调节的ANN、SVM、ARIMA模型预测,再利用ANN、SVM和ARIMA三个模型预测结果,通过线性回归得出组合模型
COMB=5126.1905+3.3945×SVM-2.7479×ANN+0.2750×ARIMA。
表一是各模型对2009~2013年税收收入的预测结果、误差及误差率。
表一:模型预测结果表
年份 |
2009年 |
2010年 |
2011年 |
2012年 |
2013年 |
|
原始值(亿元) |
59521.59 |
73210.79 |
89738.39 |
100614.28 |
110497.00 |
|
SVM模型 |
预测值 |
63643.21 |
69861.45 |
86487.36 |
105923.27 |
116537.21 |
残差 |
-4121.623 |
3349.342 |
3251.031 |
-5308.993 |
-6040.209 |
|
误差率 |
0.06924586 |
0.04574930 |
0.03622787 |
0.05276580 |
0.05466401 |
|
ANN模型 |
预测值 |
63758.68 |
69664.63 |
86018.84 |
105486.71 |
117995.62 |
残差 |
-4237.090 |
3546.162 |
3719.548 |
-4872.428 |
-7498.624 |
|
误差率 |
0.07118577 |
0.04843770 |
0.04144879 |
0.04842680 |
0.06786270 |
|
ARIMA模型 |
预测值 |
62890.24 |
67833.45 |
90414.15 |
106375.69 |
119367.82 |
残差 |
-3368.6478 |
5377.3416 |
-675.7648 |
-5761.4108 |
-8870.8167 |
|
误差率 |
0.056595394 |
0.073450123 |
0.007530387 |
0.057262356 |
0.080281063 |
|
组合模型 |
预测值 |
63257.27 |
69495.68 |
87202.75 |
104072.21 |
109301.10 |
残差 |
-3735.68 |
3715.11 |
2535.64 |
-3457.93 |
1195.90 |
|
误差率 |
-0.062761748 |
0.050745387 |
0.028255857 |
-0.034368217 |
0.010822936 |
表二是利用ANN、SVM和ARIMA模型以及组合模型对税收收入2005~2013年数据进行预测的预测精度度量数据。通过比较分析可知,无论从预测误差的均方根和还是平均绝对预测误差来比较,组合模型的预测精度明显比其它三个单一模型的精度更高。
表二 模型预测精度
|
ANN |
SVM |
ARIMA |
ANN+SVM+ARIMA |
平均绝对误差 |
3592.659 |
3413.387 |
4219.291 |
2179.295 |
均方根误差 |
4153.768 |
3842.402 |
4857.239 |
2500.119 |
我们利用ANN、SVM和ARIMA三个模型分别预测2014年的税收收入为129224.73、134371.77和130334.79亿元,利用组合模型预测的税收收入为141996.6亿元,比2013年110497亿元增加31499.6亿,增长28.51%。在0.95的置信度下,2014年税收收入的预计范围为[109544.8, 174456.3],预计增长范围为[-0.86%,58.88%]
五、结论
注:本文数据均由公开渠道收集整理。