数据集在估计其平均值时是如何产生偏差的?

股票入门知识 | 发布于2021-11-30

现在我们来说明诸如罗素1000这样的数据集在估计其平均值时是如何产生偏差的。注意这并不是批评罗素1000数据集,任何其他的基于在固定日期选择最大的或最小的公司方式构成的数据集都会存在相似的偏差。特别地,我们将说明利用实证平均或通过最小二乘法——当今大多数模型所采用的两个基本方法——计算期望收益,将导致期望收益的高估。在计量经济学实践中,模型是在移动的窗口上估计的。例如,估计一个多因素模型,首先要做的是在给定长度的移动窗口中估计其期望收益和协方差矩阵。预期收益可以用移动平均收益来估计。我们选择一个100期的移动窗口,如果一期代表一周,那么100期大约就是2年。

继续我们的例子,我们来选取两个移动窗口,分别在第500期和501期终止,即刚好在501期进行股票选择之前和之后。对于每个移动窗口,我们都画出所有10000个价格过程的平均值以及对应时期上AR1000的价格过程的平均值。因此,对于在500期结束的时间窗口,我们平均的是在第451期时所选择的1000个过程。而对于在501期结束的时间窗口,我们平均的是在第501期时所选择的1000个价格过程。如图4.2和图4.3所示。

正如我们在图4.2所见到的那样,所选取的1000个过程的平均值在前50期呈上升趋势,之后就与整体均值一样趋势较为平坦。然而在图4.3中我们看到,在501期选择的过程在整个时期上都呈现上升趋势。

数据集在估计其平均值时是如何产生偏差的?

数据集在估计其平均值时是如何产生偏差的?

这些走向并不反映任何真实的增长路径。实际上,由于使用上述设计方法,我们人工1创造出的随机游走路径不具有任何本质的增长态势。在图4.2和图4.3 中所呈现的增长完全是由于所选择的过程在之前的时间窗口是增长的。但这个增长是一个假的偏差。选择时点之后的平均收益为0。

为了检验这个结果,我们计算每一时刻所选的移动窗口内价格过程的平均收益以及该时刻刚结束的时期上的平均收益。因为我们考虑的是人工创造出的随机游走过程,如果样本无偏差,那么任意移动窗口的实际平均收益都应该能估计接下来时期上的预期收益。因此,移动窗口内的平均收益与移动窗口后面时期上的平均收益应该相等。然而我们所得到的结果如下:

移动窗口内的实际平均收益=0.00038698%

移动窗口后的实际平均收益=0.0030430%

图4.4给出了两种实际平均收益的图形。

点线代表了移动窗口估计的预期收益。当实施了选择规则后,收益率马上上升然后又减少,就像图4.2和图4.3中所示那样。连续线代表移动窗口后的收益。由图4.4 可以看出,由于我们仅考虑一期,移动窗口后的收益波动十分剧烈。但很明显的是,平均来讲,移动窗口后的收益比移动窗口内的收益要小。

这个差异是不容忽略的。移动窗口后的实际平均收益接近于零:相关的年化收益约为0.02%。但移动窗口内的年化收益要大于2%。这意味着,在像罗素1000这样的数据集里,将预期收益估计为过去实际收益的平均值,会高估2% ,这仅仅是由于样本偏差。

飞鲸投研从多维度分析,整理了一份《成长50》的名单,可以关注同名公众号:"飞鲸投研":feijingtouyan,进行领取(点击复制)

Tags: 003043
该文观点仅代表作者本人,飞鲸投研系信息发布平台

/阅读下一篇/

从大型数据集中进行抽样的错误有哪些?

热门推荐