加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

商业车险定价模型评析

(2016-03-21 12:00:00)
标签:

杂谈

商业车险定价模型评析

孟生旺

(本文刊载于《中国精算师》第2期,2016年4月)

一、引言

车险保费包括纯保费、风险附加、费用附加和利润附加。纯保费用来补偿保险公司的期望赔款支出,风险附加用于支付未来的不利偏差所导致的额外赔款支出,费用附加用于支付保险公司的经营管理费用,利润附加为保险公司获取预期的经营利润。本文主要讨论车险纯保费的预测模型。

纯保费的预测模型经历了一个从简单到复杂的发展过程。早期使用的模型包括单变量分析法和最小偏差法。从1990年代开始,广义线性模型逐渐发展成为车险定价的主流模型。

单变量分析法每次只分析一个变量,原理简单直观,但由于没有考虑不同变量之间的相互影响,可能得出错误的结论。以表1的数据为例,如果仅仅分析男性司机和女性司机的索赔频率,男性为(600 100)/(4000 1000)=14%,女性为(150 400)/(4000 1000)=11%,从而得出男性司机的索赔频率高于女性司机的结论。但事实上,如果把汽车的用途考虑在内,男性司机和女性司机的索赔频率是没有差异的。譬如,对于商用汽车而言,男性的索赔频率是600/4000=15%,女性的索赔频率是150/1000=15%;对于家用汽车而言,男性的索赔频率是100/1000=10%,女性的索赔频率是400/4000=10%。由此可见,如果不考虑汽车用途的影响,仅仅基于性别变量分析索赔频率可能得出错误的结论。

最小偏差法包括边际总和法、最小二乘法和最小卡方法等多种不同的方法,这类方法同时考虑了多个变量之间的相互影响,克服了单变量分析法的一些缺陷,但这类方法的不足之处是不能对计算结果进行严格的统计检验。譬如,对于一组特定的损失次数数据,边际总和法对索赔频率的预测结果等价于广义线性模型中泊松回归的预测结果,但前者无法对结果的适用性和可靠性进行检验,而后者可以进行一系列的模型评价和检验。

广义线性模型是车险定价中的主流模型。常用的广义线性模型包括预测事故发生概率的logistic回归模型,预测索赔频率的泊松回归模型,预测案均赔款的伽马回归模型,以及预测纯保费的Tweedie回归模型。广义线性模型的优越性可以通过表1中的索赔次数数据进行说明。譬如,如果对该表中的索赔次数数据建立泊松回归模型,则可以求得男性和女性的索赔频率相同,而商用汽车的索赔频率是家用汽车的1.5倍,由此可以发现,在单变量分析法中,之所以得出男性索赔频率大于女性索赔频率的错误结论,是因为大多数男性驾驶商用汽车,而大多数女性驾驶家用汽车所致。

  车险损失次数的观察值

性别

用途

车辆数

索赔次数

商用

4000

600

家用

1000

100

商用

1000

150

家用

4000

400

纯保费可以分解为索赔频率与案均赔款的乘积,所以预测纯保费的常用方法包括两种类型,一种方法是分别预测索赔频率和案均赔款,然后将它们相乘求得纯保费的预测值;另一种方法是直接建立纯保费的预测模型。这两种方法各有优缺点,下面将分别讨论它们的性质和相互关系。

二、索赔频率预测模型

索赔频率是平均每个车年的索赔次数。通常假设个体保单的索赔次数服从泊松分布。泊松分布只有一个参数,就是其均值参数。对于大多数个体保单而言,其索赔频率小于1,即平均每年的索赔次数不超过1次。在这种情况下,泊松分布在零点都有一个较大的概率堆积,如图1所示。这就意味着,个体保单在一个保险期间累积赔款的分布在零点也会出现一个较大的概率堆积。当泊松分布的参数逐渐增大时,其概率分布将趋于对称,可以用正态分布近似。

 

  泊松分布的概率函数

在泊松分布假设下,对索赔频率的预测模型就是泊松回归模型。泊松分布的方差等于其均值,即在均值给定的条件下,方差也是给定的。正是由于这种原因,当索赔次数存在过离散特征时(即方差大于均值),泊松回归模型就有可能低估参数估计值的标准误,从而夸大参数的显著性水平。对于过离散的索赔次数数据,可以考虑用负二项回归模型代替泊松回归模型。

实际索赔次数数据还可能存在零膨胀特征,即索赔次数在零点的概率远远大于泊松分布在零点的概率。在这种情况下,可以考虑使用零膨胀泊松回归模型。如果索赔次数数据既存在过离散特征,又存在零膨胀特征,比较合适的索赔频率预测模型就是零膨胀负二项回归模型。

三、案均赔款预测模型

案均赔款是在索赔已经发生的条件下平均每次索赔的赔款金额。在案均赔款的预测模型中,通常假设案均赔款服从伽马分布。伽马分布有两个参数,分别是形状参数(a)和尺度参数(q),均值为aq,方差为aq2。伽马分布的密度函数如图2所示,其中假设均值为1000。该图展示了伽马分布的三种形状:一种是形状参数大于1,存在非零的众数;第二种是形状参数等于1,等价于指数分布;第三种是形状参数小于1,在零点附近有一个很高的概率,同时尾部较厚。

http://s8/bmiddle/0028pSevzy6ZswdmDWL77&690

   伽马分布的密度函数

伽马分布的上述特点意味着,如果案均赔款的观察值既有一个非零的众数,又拖着一个长长的厚尾,则伽马回归模型可能是不适用的,此时可以考虑使用逆高斯回归、广义伽马回归、GB2回归或偏t回归。伽马回归和逆高斯回归都属于通常意义上的广义线性模型,在均值和方差给定的条件下,逆高斯分布的峰度更高,偏度更大,所以更加适合拟合尖峰厚尾的保险损失数据。

四、纯保费预测模型

纯保费是平均每个车年的赔款金额,可以分解为索赔频率与案均赔款的乘积。假设个体保单在一个保险期间的索赔次数为N,每次的索赔金额为X_i,则该保单在一个保险期间的纯保费观察值可以表示为S=X_1 X_2 ... X_N.

如果假设索赔次数N服从泊松分布,每次的索赔金额X_i服从伽马分布,则纯保费的观察值S将服从Tweedie分布。Tweedie分布有三个参数,分别是均值参数(m)、幂参数(p)和离散参数(f)。Tweedie分布的方差可以表示为fm^p。

当索赔次数等于零时,纯保费一定为零,当索赔次数大于零时,纯保费也必然大于零,且等于若干个伽马随机变量的观察值之和。由此可见,Tweedie分布是一个半连续分布,在零点是离散的,而在大于零的区域是连续的。Tweedie分布的常见形式如图3所示,其中假设泊松分布的均值为3,伽马分布的均值为1000

 

http://s1/bmiddle/0028pSevzy6Zswfa24w40&690

Tweedie分布的常见形状

Tweedie分布与纯保费观察值的形状具有相似性,所以在基于纯保费数据建立预测模型时,通常使用Tweedie回归模型。

零调整逆高斯分布的形状与Tweedie分布类似,也在零点有一个较大的概率堆积,且在大于零的区域是一个连续分布,所以在某些情况下,可以用零调整逆高斯分布替代Tweedie分布使用。

五、泊松-伽马回归模型与Tweedie回归模型的比较

如前所述,常用的索赔频率预测模型是泊松回归模型,常用的案均赔款预测模型是伽马回归模型,而常用的纯保费预测模型是Tweedie回归模型。从车险定价的角度来看,我们的最终目的是要求得纯保费的预测值,为此,可以有两种不同的路径选择:一种是分别建立索赔频率与案均赔款的预测模型,在求得索赔频率和案均赔款的预测值之后,将它们相乘即可求得纯保费的预测值;另一种是建立纯保费的预测模型,并由此直接求得纯保费的预测值。如果仅仅从工作量上考虑,似乎直接建立纯保费的预测模型更加简捷,但若从下述的多个角度考虑问题,则分别建立索赔频率预测模型和案均赔款预测模型更加可取。

1)数据使用的充分性

分别建立索赔频率预测模型和案均赔款预测模型的优点之一是可以充分利用索赔次数数据和案均赔款数据中的所有信息,但是,如果直接建立纯保费的预测模型,就会损失掉索赔次数观察数据中所包含的重要信息。譬如,假设一份保单在保险期间发生了5次索赔,纯保费的观察值为3000元,另一份保单只发生了1次索赔,纯保费的观察值也为3000元。这两份保单所预示的风险具有显著差异,前者的索赔频率较高而案均赔款较低,后者的索赔频率较低而案均赔款较高。但是,如果仅仅基于纯保费的观察值建立预测模型,显然将无法区分这两份保单的风险差异。

直接建立纯保费的预测模型还有可能错误地剔除掉在风险管理中具有重要影响的变量。譬如,如果一个变量既对索赔频率具有显著影响,又对案均赔款具有显著影响,那就意味着这是一个在风险管理中不容忽视的变量。但是,如果该变量在索赔频率预测模型中是正效应,而在案均赔款的预测模型中是负效应,且两者的绝对值正好相等,则在纯保费的预测模型中,该变量将被认为是不显著的。

2)模型的稳定性和灵活性

 实证研究结果表明,索赔频率预测模型的稳定性要高于案均赔款预测模型。这是因为,用泊松分布或负二项分布就可以很好地描述索赔汽车保险的索赔次数数据,所以泊松回归模型或负二项回归模型对索赔频率的预测效果较为稳定。但是,案均赔款的观察值往往呈现出尖峰厚尾的特征,很难用伽马分布或逆高斯分布进行准确刻画。在这种情况下,如果分别建立索赔频率和案均赔款的预测模型,至少可以保证索赔频率预测结果的准确性和稳定性。反之,如果直接建立纯保费的预测模型,我们将很难保证Tweedie回归模型的合理性。事实上,当索赔金额的观察值偏离伽马分布时,应用Tweedie回归模型对纯保费的预测效果往往欠佳。

当案均赔款数据呈现出明显的尖峰厚尾特征时,可以用广义伽马分布、GB2分布或偏t分布代替原来的伽马分布后建立案均赔款的预测模型。在这种情况下,描述纯保费的合理分布显然将不再是Tweedie分布。

3)机时耗用

在建立纯保费的Tweedie回归模型时,如果假设Tweedie分布的幂参数p是已知的,则相应的Tweedie回归模型属于通常意义上的广义线性模型,可以使用迭代加权最小二乘法估计模型参数。但是,如果幂参数p是未知的,则相应的Tweedie回归不再属于通常意义上的广义线性模型,亦即不能使用迭代加权最小二乘算法估计Tweedie回归模型的参数。此时,需要采用极大似然法,但由于Tweedie分布的复杂性,参数的极大似然估计过程比较耗时。基于一组模拟数据的研究结果表明,分别估计泊松回归模型和伽马回归模型所需的计算机总机时要远远小于估计Tweedie回归模型所需要的机时,前者大约仅为后者的二十分之一。

4)相依性的影响

在分别建立索赔频率和案均赔款的预测模型计算纯保费时,其中隐含着一个重要假设,即索赔频率与案均赔款相互独立。在大多数情况下,这种假设是符合实际的,但也有例外情况。如果索赔频率与案均赔款之间存在相依关系,则使用Tweedie回归模型就可以回避相依性带来的影响。

在索赔频率与案均赔款之间存在相依关系的情况下,应该分别建立索赔频率和案均赔款的预测模型,还是直接建立纯保费的Tweedie回归模型,就需要分析相依性对纯保费预测值带来的影响到底有多大。为此,我们模拟了8个风险类别,其中包含1000份保单的损失观察数据。在模拟数据时,假设索赔次数服从泊松分布,每次的索赔金额服从伽马分布,且索赔频率与索赔金额是负相关的。模拟的索赔频率与案均赔款如图4所示,其中横轴表示索赔频率,纵轴表示案均赔款的对数。在该图中,最粗的一条直线表示所有保单的索赔频率与对数案均赔款之间的相关系数是-0.133,其余八条细线分别表示八个风险类别的索赔频率与对数案均赔款之间的相关系数。

 

http://s4/bmiddle/0028pSevzy6ZswhIVJp13&690
 索赔频率与案均赔款的相依性示例

对于前述的模拟数据,分别建立泊松回归模型和伽马回归模型对纯保费的预测值与直接建立Tweedie回归模型对纯保费的预测值非常接近,如表2所示,最大的相对差异仅为2.8%。由此可见,即使索赔频率与案均赔款之间存在非常明显的相依性,基于独立性假设建模对纯保费的预测值所造成的影响也是有限的。

  泊松-伽马回归模型与Tweedie回归模型的预测值

 风险类别

1

2

3

4

5

6

7

8

泊松-伽马回归

4572.2

752.3

631.8

104.0

1892.1

311.3

261.5

43.02

Tweedie回归

4565.8

732.0

637

102.1

1906.4

305.7

266.0

42.6

相对差异

0.14%

2.8%

-0.81%

1.8%

-0.75%

1.8%

-1.7%

0.88%

在汽车保险的实际损失数据中,索赔频率与案均赔款之间的相依关系通常很低,所以使用独立性假设对纯保费预测值造成的影响也不会很大。

当然,在分别建立索赔频率和案均赔款的预测模型时,也可以放弃独立性假设,通过Copula或共同随机效应等方法描述索赔频率与案均赔款之间的相依关系,从而进一步改进模型的预测效果。

六、小结

在车险费率厘定中,通常使用泊松回归模型预测索赔频率,使用伽马回归模型预测案均赔款,使用Tweedie回归模型预测纯保费。对于一组给定的车险损失数据,如果Tweedie回归模型是合理的,则分别建立泊松回归模型与伽马回归模型也必然是合理的,因为Tweedie分布就是泊松分布与伽马分布的复合分布。在这种情况下,将泊松回归模型和伽马回归模型的预测值相乘求得的纯保费预测值与使用Tweedie回归模型求得的纯保费预测值基本相同。

在实际的车险损失数据中,索赔次数往往存在过离散现象,而案均赔款往往存在尖峰厚尾特征,此时,索赔频率和案均赔款的合理预测模型将不再是泊松回归模型和伽马回归模型,而可能分别是负二项回归模型或广义伽马回归模型,在这种情况下,使用Tweedie回归模型预测纯保费可能会造成较大的偏差。

当索赔频率与案均赔款之间存在相依关系时,可以通过Copula或共同随机效应等方法来描述它们之间的相依关系,从而进一步改进模型对纯保费的预测效果。

总之,直接使用Tweedie回归模型预测纯保费有可能遭遇分布假设错误,而分别建立索赔频率与案均赔款的预测模型,不仅可以更加充分地利用实际损失数据中的所有信息,而且建模过程更加灵活,有助于从分布假设和变量选择等不同角度改进模型的预测效果。


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有