从大型数据集中进行抽样的错误有哪些?

股票入门知识 | 发布于2021-11-30

很多投资管理过程都基于在一个很大的具有固定特性的价格/收益过程集合中进行选择。可能最明显的例子便是配对交易了。,配对交易是以选取在价格,上高度相关的两种股票为基础的。人们普遍认同的是,配对交易是由在摩根斯坦利做交易员的Nunzio Tartaglia在 1980 年首次引入到投资管理中的。

从大型数据集中进行抽样的错误有哪些?

假定我们知道两只股票的价格将非常接近,当它们的距离达到最大时,我们可以买入价格较低的股票而卖出另外一只股票。由于它们的历史价格路径非常接近,我们假定它们会再次接近甚至转换其价值顺序,当它们之间的距离减小或变号时,就产生了利润。

给定很多股票,配对交易策略将寻找具有协整关系的配对股票。一个典型的方法就是对每对股票进行协整检验。实际上,可以使用包含对每对股票进行协整关系检验的多重检验。

任何统计检验,无论它的复杂性和作用,都会在一定数量的情况下偶然地被拒绝。也就是说,一对股票可能纯属偶然地在一个样本期上通过了协整检验,或者真正具有协整关系的一个配对却被拒绝。实际上,任何统计检验都有一个显著水平,它可以告诉我们在多大百分比上检验将被偶然拒绝。因此,即使对价格过程进行协整检验后发现一些过程通过了检验,也不能得出所有这些过程都真正具有协整关系的结论。

举例说明这个现象,我们考虑1000个具有1000期的算术随机游走过程的路径。在样本集中有(1000×1000-1000)/2=499500个不同的过程对。对这些过程进行协整检验。因为我们把这些过程构造为随机游走过程,所以这些随机过程路径中没有一对是具有协整关系的。但是,我们会发现在检验中有些随机游走路径对可以通过协整检验,这完全是偶然的。

为了说明这点,我们执行以下三个标准协整检验:

①增广的迪基一富勒(ADF) 检验

②约翰森迹检验

③约翰森最大特征值检验

ADF检验基于一个过程对另一个过程作回归分析并且检验残差的稳定性。如果残差是平稳的,那么,由定义,这两个过程是协整的。约翰森迹检验和最大特征值检验是基于约翰森方法的标准协整检验。

实际中,这些检验的应用都包括了将某些检验值与列表判定值的比较。我们对随机游走过程实现的样本集执行这三个检验。而随机游走是由如下递归方程定义的:

从大型数据集中进行抽样的错误有哪些?

在我们的检验中,允许常数项的存在,没有确定性趋势项,滞后期最大为10。利用相同参数给出两个样本,样本1和样本2,并进行检验,得到如下结果:

使用ADF检验,显著性水平为1%,样本1中有1.1%通过了协整检验,而样本2中有0.8%通过了协整检验。

使用约翰森迹检验,显著性水平为99%,样本1中有2.7%通过了协整检验,而样本2中有1.9%通过了协整检验。

使用约翰森最大特征值检验,样本1中有1.7%通过了协整检验,而样本2中有1.1%通过了协整检验。

同时使用三个检验,样本1中有0.5%通过检验,样本2中有0.4%通过检验。这些结果在图4.5中进行了总结。

从大型数据集中进行抽样的错误有哪些?

这些数据涉及随机游走实现的两个样本。我们可以看到两个样本间有很大的波动,三个不同的检验之间也有很大的差异。注意这里通过协整检验的过程对的数量差异完全是由偶然因素造成的。我们使用具有相同参数的相同检验并且采用具有相同参数的相同数据产生过程。尽管涉及很多过程(1 000个过程),但通过协整检验的过程对的数量仍有很大差异。我们注意:严重的问题在于所有通过协整检验的过程实际上都不是协整的,如果一个人以这些过程为基础进行配对交易,那么他就会遭受损失。因此我们有理由得出这样的结论:给定一个价格过程集合,其中某些过程对通过协整检验并不在本质上意味着这些过程真的具有协整关系。

给定一个包含有一些真正具有协整关系的过程的集合,我们如何识别真正具有协整关系的配对呢?我们必须找到能够决定协整对数的判定值,如果通过协整检验的配对数超过该判定值,我们就有理由说存在真正的协整配对。

协整对数量的判定值的一个简单选择方法是:用总的配对数乘以显著性水平。也就是说,如果检验的显著性水平为1%,并且有499 500个不同的配对组合,我们可以假定为确保协整关系存在的结论可靠,通过协整检验的配对数必须超过499 500 ×0.01≈5000。然而,这些对与对之间并非独立关系。例如,如果我们检验了配对a,b和配对b、c,那么配对a、c就与前两者不独立了。很难为小的样本建立数学准则,因此需要模拟研究。

无论如何,如我们所见,随机游走样本中通过协整检验的配对数有很大波动。因此,我们需要改进我们的准则。这里我们就不再介绍许多专业的方法。我们的目的只是通过例子来说明在大的数据集合中,我们总能找到一定比例的过程能通过特定的检验。为了得出结论,我们必须通过模拟和启发(heuristics)来获得对这些由百分数表示的判定值的更好的理解。

飞鲸投研从多维度分析,整理了一份《成长50》的名单,可以关注同名公众号:"飞鲸投研":feijingtouyan,进行领取(点击复制)

该文观点仅代表作者本人,飞鲸投研系信息发布平台

/阅读下一篇/

模型的时间聚集性以及数据频率选择中的错误有哪些?

热门推荐