广义线性模型与汽车保险费率厘定Word格式.doc
- 文档编号:13167820
- 上传时间:2022-10-07
- 格式:DOC
- 页数:5
- 大小:351.50KB
广义线性模型与汽车保险费率厘定Word格式.doc
《广义线性模型与汽车保险费率厘定Word格式.doc》由会员分享,可在线阅读,更多相关《广义线性模型与汽车保险费率厘定Word格式.doc(5页珍藏版)》请在冰豆网上搜索。
对于一般的线性回归模型(LM)i可以分解为三个要素:
LM1:
随机要素,即Y服从正态分布,;
LM2:
系统要素,;
LM3:
连接要素,;
(二)、广义线性模型
尽管传统的线性模型广泛地应用于统计数据分析中,但它却不适合处理如下几类问题:
(1)将数据分布假设为正态分布并不合理;
(2)当数据的均值被限制在一定的范围内时,传统的线性模型就不适用了,因为线性预测值可以取任意值;
(3)假定数据的方差对于所有观测都是一个常数并不现实。
广义线性模型扩展了传统的线性模型,因此它适用于更广范围的数据分析问题。
一个广义线性模型包括以下组成部分:
GLM1:
随机要素,Y服从比正态分布更一般的分布,即指数族分布;
GLM2:
系统要素同LM2,即保持线性结构;
GLM3:
连接要素,其中g为严格单调可微的函数,称为连接函数。
GLM的通常表述如下:
其中:
:
响应变量向量;
连接函数;
自变量矩阵;
待估计的参数向量;
干扰项向量;
方差函数的散布参数;
方差函数;
信度或权重;
、、和依赖于对已知数据的处理,和则根据事先设定的模型得出,而或为已知,或为估计值。
1、指数族分布
设Y为随机变量,若其密度函数为:
其中a()、b()、c()为已知函数,称为典型参数,称为散度参数。
由Y的对数似然可以计算得:
Y的方差是的二阶导数与的积,只依赖于典型参数,因而只依赖于,所以,一般记的二阶导数为,并称为方差函数。
此外,一般取,称为权数。
对于一个指数族分布,当确定后其分布形式即确定了,所以只要方差函数V确定了,对应的指数族的形式(如果存在)也就确定了。
常见的几种分布都属于指数族,如下所示:
表一、常见指数族分布参数表
分布形式
参数
Normal
1
Poisson
Gamma
Binomial
InverseGaussian
2、连接函数
连接函数是用来描述系统要素与随机要素期望值之间关系的函数形式。
作为连接函数必须严格单调且充分光滑,即有足够阶数的导数。
(由于:
)
当时,上式可以简化为
我们称之为自然连接函数,其最重要的优点在于它使广义线性模型下统计推断的大样本理论变得更易于处理。
当然,实际处理过程中,连接函数的选取主要取决于问题本身。
3、参数估计
设,,…,独立同分布,服从指数族分布:
则(,,…,)的对数似然函数为:
由于:
则:
4、假设检验
同一般回归分析一样,广义线性模型的选择以及解释变量的显著性检验问题都可化为线性假设检验:
原假设备择假设,其中为P维,C为已知的r×
p行满秩常数矩阵。
(1)、Wald检验
检验统计量为:
这里,为的极大似然估计,为的估计。
当原假设成立时,即,带入,得:
于是
,因此,当>
时,拒绝原假设。
(2)、约束检验
以记为原假设约束条件下的MLE(极大似然估计)。
构建统计量:
当大于某个常数时,拒绝原假设。
此检验的直观背景如下:
因为,若原假设成立,则和均为的估计,理应比较接近,因此,,这时取很小的值。
反之,取较大的值。
可以证明,当原假设成立,且满足一定的条件时,有:
,
因此,上文所提及的常数可取,为给定的置信水平。
(3)、拟似然比检验
以记为对数似然函数,则和分别为的不受任何约束的MLE以及受到原假设约束的MLE。
因为为的最大值,总有>
0。
若原假设成立,则和均为的相合估计,理应比较接近,倾向于小;
反之,倾向于大。
可以证明,当原假设成立,有:
因此,上文所提及的常数可取>
为检验的否定域。
为给定的置信水平。
三、应用探讨
1、数据情况说明
下表是某保险公司汽车保险的历史理赔资料数据来源于《广义线性模型于保费点数计价系统》,统计研究,2002年第6期,毛泽春、刘锦萼
,从表中我们不难看出,影响该公司汽车保险费用的因素主要有三类,分别是:
被保险人的年龄、车型和车龄。
其中被保险人的年龄又细分为17-20、21-24、25-29、30-34、35-39、40-49、50-59和60+八类;
车型具体可分为A、B、C和D四种;
车龄同样也分为0-3、4-7、8-9和10+四个类别。
2、模型选择
我们运用SAS的Genmod程序对上述数据构建广义线性模型,分别用正态(Normal)分布、伽码(Gamma)分布和逆高斯(InverseGaussian)分布,连接函数均为对数连接(LOG)。
不同分布下的拟合优度比较详见下表:
表三、不同分布的拟合优度比较
自由度
总离差
平均离差
对数似然
伽码分布
109
15.88
0.15
-701.01
正态分布
114
912033.22
8000.29
-749.39
逆高斯分布
0.24
0.00
-766.65
从上表我们可以看出,正态分布的总离差最大(拟合优度较差),而逆高斯分布的总离差最小(拟合优度较好),伽码分布居中,但是伽码分布的对数似然值却最大(为-701.01),因此,仅仅从总离差的角度就可以拒绝正态分布。
对于各个参数的显著性检验,我们则通过SAS软件的Genmod程序的type1检验得出。
表四——表六分别列出了伽码分布、正态分布和逆高斯分布的tpye1分析结果,其中,伽码分布和正态分布中,所有的参数均能通过显著性检验,但是在逆高斯分布中参数车型未能通过显著性检验(统计量为7.79,P值为0.0507),因而,逆高斯分布也被拒绝。
综合上述的总离差分析,选择伽码分布作为最终的拟合分布。
表四、伽码分布TYPE1分析
2倍对数似然
Chisquare值
P值
年龄
-1487.9567
车型
-1465.9255
3
22.03
<
.0001
车龄
-1402.0105
63.92
.0001
表五、正态分布TYPE1分析
-1592.4905
-1579.5307
12.96
0.0047
-1498.7876
80.74
表六、逆高斯分布TYPE1分析
-1568.0007
-1560.2152
7.79
0.0507
-1533.2995
26.92
根据前文的分析,建立广义线性模型,由于选择的连接函数为对数连接(LOG),因此,程序计算出的参数估计值为取对数后的数值,我们通过求取对数函数的反函数即可计算出实际的参数估计值,从下表我们还可以看出,所有的参数均能通过置信水平为1%的显著性检验。
说明选择的模型能较好的拟和该公司的历史数据,并能据此厘定车险费率。
四、总结
与其他模型相比,广义线性模型主要应用于不满足正态数据的回归分析。
对保险行业而言,该模型既保留了传统正态线性回归的优点,又使得损失分布的建模变得更为简单。
因此,广义线性模型在保险中的运用不仅仅局限于汽车保险费率的厘定上,其在非寿险业务准备金,寿险的风险分类以及健康保险中的多状态模型等方面均有广泛的运用。
参考文献:
[1]Brockman,M.J,Wright,T.S.,"
StatisticalMotorRating:
MakingEffectiveUseofYourData"
JournalofInstituteofActuaries119,Vol.III,pages:
457-543,1992.
[2]Conning,"
InsuranceScoringinPrivatePassengerAutomobileInsurance–BreakingtheSilence"
ConningReport(2001).
[3]Hardin,James,Hilbe,Joseph,"
GeneralizedLinearModelsandExtensions"
StataPress,2001
[4]McCullagh,J.A.Nelder,"
GeneralizedLinearModels"
2ndEd.,Chapman&
Hall/CRC,1989.
[5]Mildenhall,Stephen,"
Asystematicrelationshipbetweenminimumbiasandgeneralizedlinearmodels"
ProceedingsoftheCasualtyActuarialSociety,LXXXVI,1999.
[6]陈希儒,广义线性模型,《数理统计与管理》2002年9月
[7]高惠璇等,《SAS系统SAS/STAT软件使用手册》中国统计出版社,1997年
[8]毛泽春、刘锦萼,广义线性模型于保费点数计价系统,《统计研究》2002年第6期
[9]王丽萍、马林茂,用SAS软件拟合广义线性模型,《中国卫生统计》2002年2月
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 广义 线性 模型 汽车保险 费率 厘定