一本了解统计学发展前沿的好书
(2021-02-06 07:14:40)龚 凤 乾(天津财经大学 统计学院,天津 300222)
内容提要:本文对范剑青、H. L. Koul合编的Frontiers in
Statistics一书逐章作了较详细的介绍,以便读者对这本重要的文集有一个较深的印象,从而引起阅读它的兴趣。本文还对如何读好这本书提出了三条建议,即熟悉有关的矩阵计算,特别是“稀疏协方差矩阵”的估计和计算;有足够的耐心阅读篇幅较长的文献;具备一定的动态对等翻译能力。
关键词:统计学前沿;协方差矩阵;动态对等翻译
中图分类号:C812 文献标识码: A
文章编号:1002-4565(2009)09-0108--05
为庆祝当代美国著名统计学家Peter John
Bickel教授65岁生日(Bickel教授是国际统计学大奖COPSS奖的首位获得者),范剑青、H. L.
Koul两人合编了Frontiers in Statistics(“统计学进展”)这本文集,
2006年该文集由英国帝国学院出版社出版。本书的撰稿人不乏国际统计学界的翘楚,所著文章大都视野开阔,启发思考,反映了学科的前沿发展。文集中的全部文章不仅被国际知名学者评论过,而且其中的绝大多数还在普林斯顿大学2006年5月18-20日举行的“统计学进展”研讨会上作过交流,因而非常值得我们关注。
一、Frontiers in Statistics各章标题一览
这本文集共有7部分22章。除第1章外(该章主要介绍Bickel教授的学术贡献),其余21章分别为:第1部分的2、3、4、5章涉及半参数模型;第2部分的6、7、8、9章涉及非参数方法;第3部分的10、11、12章涉及统计学习过程与自助法;第4部分的13、14章涉及纵向数据分析;第5部分的15、16章涉及统计学在科学技术中的应用;第6部分的17、18章涉及金融计量经济学;第7部分的19、20、21、22章涉及参数方法与统计推断。
各章标题如下:
第1章 沿着Bickel开辟的道路前进
第1部分 半参数模型
第2章 自1993年以来半参数模型进展回顾
第3章 时间序列的有效估计量
第4章 论单指数模型的估计效率
第5章 基于交叉核实的估计函数
第2部分 非参数方法
第6章 基于参数选择的功效调整
第7章 非参数非典型估计
第8章 小波在统计学中的应用:若干回顾
第9章 鞅变换下的模型诊断: 简要回顾
第3部分 统计学习过程与自助法
第10章 辅助算法在多元时间序列中的应用
第11章 自助法回顾
第12章 一种离散非格点分布的推广
第4部分 纵向数据分析
第13章 纵向数据之非参数、半参数方法回顾
第14章 关于一个协变量纵向反应轨迹的回归
第5部分 统计学在科学技术中的应用
第15章 统计物理与统计计算:一种重要联系
第16章 网络X线照相术:回顾与最新发展
第6部分 金融计量经济学
第17章 关于扩散性的似然推断:概述
第18章 生产效率的非参数估计
第7部分 参数方法与统计推断
第19章 混合分布(Mixing Distribution)牛顿算法估计的收敛性及一致性
第20章 混合模型(Mixed Models)回顾
第21章 多元分析中位置估计量、散布性估计量之稳健性
第22章 关于估计损失的估计
此外,本文集附有大量的参考文献,各章末所附参考文献篇数如下:
第2章153篇;第3章48篇;第4章20篇;第5章32篇;第6章41篇;第7章15篇;第8章66篇;第9章65篇;第10章35篇;第11章93篇;第12章10篇;第13章79篇;第14章38篇;第15章22篇;第16章32篇;第17章57篇;第18章27篇;第19章12篇;第20章106篇;第21章91篇;第22章2篇。
可以说,该文集内容非常丰富,信息量巨大,值得重视。
二、Frontiers in Statistics各章主要内容简介
Bickel等人于1993年发表单卷本专著Efficient and adaptive estimation in
semiparametric
models(“半参数模型的有效性及适应性估计”),这本书问世以后引起统计学界的广泛重视,后续的研究层出不穷。第2章“自1993年以来半参数模型进展回顾”正是对这种发展的一个综述。本章包括缺失数据模型,似然理论的检验,半参数混合模型理论,经验方法下的收敛速率,贝叶斯理论与方法,模型选择,经验似然,风险函数中有不可观测随机因素(关于生存数据分析),半参数回归模型,从i.i.d.数据向非i.i.d.数据的扩展,半参数及非参数模型信息界估计的其它可选方法等方面。例如,关于缺失数据模型,它告诉我们主要的进展是Robins,
Rotnitzky和Zhao(1995)系统做出的、对具有缺失协变量半参数回归模型信息界的估计;而其他有关的信息界估计,则介绍了CAR(Coarsening
At Random)及MAR(Missing At Random)。
第3章是“时间序列的有效估计量”,它首先对半参数时间序列有效估计的一种简单类型,即具有独立新息一阶非线性自回归作了介绍,进而介绍了自回归参数、新息分布、条件期望、平稳分布、高阶转移密度等内容,关心的重点是此类模型中的渐近有效估计量。
第4章“论单指数模型的估计效率”回顾具有一个未知连接函数的广义线性模型,即所谓“单指数模型”(Single-index
model)的研究进展。“单指数模型”是半参数模型的一种,它在计量经济学和统计学中都有重要应用,其建模要点在于允许高维(事实上是无限维)参数(称为连接函数)——除光滑性假设外——具有灵活性且未知,但侧重点仍是对有限维协变量X及反应变量Y之间的线性关系参数做出估计。
第5章是“基于交叉核实的估计函数”,主要讨论若干基于交叉核实、用于选择估计函数从而对感兴趣的参数进行估计的方法,并在很一般的条件下,得到了反映随机变量(它可产生相应的i.i.d.观测数据)分布特征的参数之渐近相合预报量。
第6章是“基于参数选择的功效调整”。通过极大化极限检验功效(原假设为m(x) = E (Y|X = x)
=常数,以局部非参数Pitman效率为备择假设),本章提出局部线性回归带宽的选择方法,并且证明,功效最优带宽当样本量趋于无穷时趋于0的充要条件是,作为备择假设的Pitman效率序列,其以x0为中心的区间长度(在此区间上
)当n→∞时非恒常收敛于0。
第7章是“非参数非典型估计”。利用原始的核密度估计,本章引进一个新的、具有泛函性质的、关于非典型指标的非参数估计量,这一估计量能够克服若径直使用插入法(plugged
in)将核密度估计量插入泛函而导致的偏误。
第8章是“小波在统计学中的应用:若干回顾”,它回顾了小波统计学方法过去15年来在回归函数估计,变点检测与估计,逆统计学问题的解以及随机过程自相似等领域中的进展。
第9章是“鞅变换下的模型诊断:
简要回顾”。统计学的一个经典问题就是模型诊断,而关于回归参数的拟合不足(lack-of-fit)检验,关于给定回归模型误差分布的拟合优度(goodness-of-fit)检验,都在文献中得到了广泛的研究。本章指出,非参数方法能在拟合不足检验中发挥重要作用。本章回顾了渐近适应任意分布(distribution-free)的检验,这些检验是针对基于某些标记经验过程(marked
empirical processes)及剩余经验过程(residual empirical
processes)而做出的。本章认为,这些检验均可建立在关于这些过程的鞅变换之上。
第10章是“辅助算法在多元时间序列中的应用”,而辅助算法(boosting)与自助法(bootstrap)都和非参数方法有密切联系,例如关于非参数分类及回归的一个有效方法即为辅助算法。本章回顾辅助算法近年来的发展并提出一种新的关于多元线性时间序列的自助法。
第11章“自助法回顾”,对近年来关于独立过程、几类相依过程包括马尔科夫过程、长距相依时间序列及空间过程的自助法发展作了综述。自助法的一个重要理论证明工具是渐近展开(asymptotic
expansions),当基础分布(underlying distributions)为绝对连续或纯格点分布(pure lattice
distribution)时,这种证明并不难理解。
第12章“一种离散非格点分布的推广”,研究离散非格点分布并对本领域内若干具有挑战性的课题进行探讨。
第13章是“纵向数据之非参数、半参数方法回顾”。纵向数据及函数性数据(functional
data)分析在过去的20年里取得了长足发展,文献大量涌现,本章对这此作了回顾并对纵向数据分析中的协方差矩阵估计作了深入讨论。
第14章是“关于一个协变量纵向反应轨迹的回归”。它回顾了函数回归模型及存在稀疏纵向数据时(借助条件期望算法的)主成份分析两方面的进展。
第15章是“统计物理与统计计算:一种重要联系”。通过详细考察著名的、关于伊辛模型的Swendsen-Wang算法,以及由Huber推进的完全抽样法(perfect
sampling
implementation),本章表明统计物理与统计计算可以相互促进,相得益彰;同时指出了统计物理与统计计算领域近年来取得的若干重要进展及其存在的问题。
第16章是“网络X线照相术:回顾与最新发展”,它对网络X线照相术中有关的统计学问题、尤其是活动X线照相术进行综述,并以因特网通话为例作了说明。
第17章是“关于扩散性的似然推断:概述”,它给出基于离散样本数据扩散过程的似然推断的一个回顾,这在金融计量经济学中具有重要意义。本章还详细讨论了转移密度及其应用。
第18章是“生产效率的非参数估计”,本章回顾了若干很有前途的、关于生产(效率)分析的非参数边界估计的最新理论发展。
第19章是“混合分布牛顿算法估计的收敛性及一致性”。当代统计学问题借用了众多传统统计学的观念,本章展示的、关于混合分布牛顿算法估计的收敛性及一致性,就是这方面研究的最新发展。
第20章是“混合模型(Mixed
Models)回顾”,本章在对线性、广义线性及非线性混合效果模型做出概述的基础上,对这些领域近年来取得的进展及面临的挑战作了阐述。本章还特别分辨了“mixed
model”与“mixture model”的不同,指出它们虽然有联系但却存在重大区别。一个“mixture
model”通常是利用条件分布进行定义,而一个“mixed model”却总是含有随机效应。
第21章是“多元分析中位置估计量、散布性估计量之稳健性”。众所周知,若基础数据服从正态分布,则可对抽样得到的样本均值向量及样本协方差矩阵做出最优估计(即最有效估计),然而这种估计对具有离群值和厚尾的数据却呈现出极端的敏感性。本章讨论关于这些传统估计量的各种稳健估计,以及它们在多元统计中的应用。本章对了解多元统计分析的最新进展很有帮助。
第22章是“关于估计损失的估计”,提出了一种很有新意的方法来估计关于估计的损失,其关键点在于引入关于密度p(•)及q(•)的Kullback-Leibler伪距离,即K(p,q)=∫plog(p/q)dy(可视为一种判别信息量)从而把估计量g(y)的Kullback-Leibler损失(KL)定义成l(q, g(y)) =
K(pq, pg(y))。如此,就能利用判别信息量带来的概念与技术上的便利进行有关损失的估计。
三、结束语
从上面的介绍我们知道,Frontiers in
Statistics是很值得仔细阅读的。为了读好它,本文提出以下几点供读者参考。
首先,因为协方差矩阵已渗入自然科学、人文科学的各个方面,所以我们应该熟悉有关的矩阵计算,特别是“稀疏协方差矩阵”的估计和计算。
其次,综述性的学术文献一般较长(一篇这样的文章包含上万个单词是很常见的),这需要读者具有足够的耐心,而对这种文献在行文中所提及的另外一篇(或另几篇)重要文献,读者也应有能力跟踪。
最后,读者还应具备一定的动态对等翻译能力。因为我们时常需要逐字逐句地将外语文献译成汉语,以便精确理解它。
参考文献
1. 范剑青,姚琦伟著. 陈敏译. 非线性时间序列——建模、预报及应用.[M]. 高等教育出版社. 北京. 2005.
153-272.
2. 范剑青. High-dimensional Covariance Learning. 工作论文. Wuhan
University. June 20, 2008.
3. 张尧庭,方开泰著. 多元统计分析引论. [M]. 科学出版社. 北京. 1982. 119-249.
4. [美]Peter J. Bickel, Kjell A. Doksum著. Mathematical
Statistics: Basic Ideas & Selected Topics [M]. 中国统计出版社. 北京.
2004.
5. 史宁中著. 统计检验的理论与方法[M]. 科学出版社. 北京. 2008. 53-96.
(本文刊于《统计研究》2009年第9期)