什么是稳健统计学?稳健统计学有哪些特性?

股票入门知识 | 发布于2021-11-26

稳健统计学处理的问题是给出估计,这些估计对所用统计模型基本假设的细微变化是不敏感的。稳健统计学的概念和方法起源于20世纪50年代。稳健统计学这一技术术语由G.E.P.Box在1953年提出。

统计模型基于一组假设,最重要的包括:(1)关键变量的分布,例如误差的正态分布;(2)模型设定,例如模型是线性的还是非线性的。这些假设中有的对于估计过程是至关重要的:如果它们被违背,估计就变得不可靠。稳健统计学(1)评估由于基本假设的细微变化而造成的估计的改变,(2)创建新的对某些假设中的一些微小变化不敏感的估计。本部分的核心是构造对误差分布的细微变化,特别是有异常值出现时的稳健估计。

稳健统计也有助于将分布尾部的贡献与数据主体的贡献分离开来。我们可以说稳健统计学和经典的非稳健统计学是互补的。通过进行稳健分析,我们可以更好地阐明重要的计量结果。

如同Peter Huber观察的那样,稳健、自由分布和非参数看上去是紧密相关的特征,但实际上却不是。例如,样本均值和样本中位数是均值和中位数的非参数估计,但是均值关于异常值并不是稳健的。事实上,单一观察值的改变可能对均值有不可控的影响,而中位数对多达一半样本的改变都不敏感。稳健方法假设在研究的分布中的确有参数,并试图将异常值和分布图形的错误假设的影响控制在最小。

稳健性的一般定义是相当技术性的。原因是我们需要定义关于分布改变的稳健性。也就是说,我们需要给出分布(它是一个函数)的微小改变导致估计(它是一个数)的小的变化的精确概念。让我们首先给出关于稳健性的现代概念以及如何测量稳健性的直观的、非技术性的综述。

定性稳健性和定量稳健性

什么是稳健统计学?稳健统计学有哪些特性?

耐抗估计量

什么是稳健统计学?稳健统计学有哪些特性?

X趋于极端值时曲线有界吗?稳健的统计量应该是有界的。也就是说,一个稳健的统计量不应该受到单一极端值的过度影响。

当X的观察值趋于极端值时,一般的反应是什么?例如,当值变为极端值时,它会光滑地降低权重吗?

如果X点位于Y的各个点的中央,影响是什么?

现在我们介绍在应用工作中重要的概念。然后我们介绍稳健估计量。崩溃边界(breakdown(BD)bound)或崩溃点是观察值的最大可能部分,即当样本的那个部分没有限制地改变时,估计量的改变量存在一个边界。例如,我们可以改变至多50%的样本点而不引起中位数的无限变化。相反,一个单一观察值的改变就可能对均值产生无限的影响。

拒绝点(rejection point)被定义为这样一个点:超过它,IC变为0。请注意:超过拒绝点的观察值对最终的估计没有贡献,除非通过辅助规模估计。具有一个有限拒绝点的估计量是回降的(redescending),而且可以不受大的异常值的影响。然而,一个有限的拒绝点通常导致数值范围被低估。这是因为,当接近于分布的尾部的观察值被忽略时,留下观测值的一个不充分部分给估计过程。这反过来会对估计量的有效性产生不利的影响。

总误差敏感度(grosserror sensitivity)表明一个受污染的观察值会对估计量产生的最大效应。它是IC的最大绝对值。

局部移动敏感性(localshift sensitivity)测量的是去掉y点处的一个质量,然后在x 处再将它引入的影响。对于连续可微的IC,局部变化敏感度由IC上任一点的斜率的最大绝对值给出。

Winsor原则陈述了所有分布在中间是正态的。

M估计量是通过最小化样本数据的函数而获得的估计量。假如,我们给定了N个样

什么是稳健统计学?稳健统计学有哪些特性?

L估计量的一个重要的例子是截尾均值。截尾均值是由除去最高和/或者最低样本部分而形成的均值。用这种方法得到的均值,不是一个稳健的估计量,但对异常值变得不敏感。

R估计量通过最小化残差加权和来获得,其中每个残差的权重都是各自秩次的函数。要被最小化的函数如下:

什么是稳健统计学?稳健统计学有哪些特性?

最小中值二乘法估计

代替在LS中最小化残差平方和的做法,为了估计参数向量,Rousseuw提出最小化残差平方的中位数,被称为最小中值二乘法(LMedS)估计量。这个估计量可以有效地截断N/2个拥有最大残差的观察值,并将使用余下集合中的最大残差值作为最小化的准则。因此相当于假定噪音比例为50%。

LMedS由于其不可微分的形式,从计算的角度看是难以处理的。这就意味着需要对所有可能参数值进行类穷举搜索,来寻找全局最小值。

最小截取二乘法估计

最小截取二乘法(LTS)估计量通过最小化下面给定的目标函数,提供了寻找稳健估计量的一个有效方法

什么是稳健统计学?稳健统计学有哪些特性?

重新加权最小二乘估计

一些算法利用一组区分正常值和异常值的权重明确地设定了目标函数。然而,这些权重通常依赖于尺度度量,这也是很难估计的。例如,重新加权最小二乘(RLS)估计使用下面的目标函数:

什么是稳健统计学?稳健统计学有哪些特性?

飞鲸投研从多维度分析,整理了一份《成长50》的名单,可以关注同名公众号:"飞鲸投研":feijingtouyan,进行领取(点击复制)

该文观点仅代表作者本人,飞鲸投研系信息发布平台

/阅读下一篇/

长期看好短期被套,手里的明星基金要不要换?基民问答:同一基金经理管理的产品收益率差别大怎么选择?

热门推荐