[原创]读老树新芽的“我的程序化研究心得”有感 - 程序化交易实盘俱乐部 - 金字塔客服中心 - 专业程序化交易软件提供商

逛金字塔论坛几年了，读了不少牛人的帖子，昨天看了老树新芽一篇“我的程序化研究心得”的帖子，感触颇深，今天准备冒个泡，嘿嘿。
我来说说我的理解和看法吧。传统的程序化交易策略的开发的本质是用已知数据（历史数据）来逼近问题的真实模型。（我们选择一个我们认为比较好的近似模型，这个近似模型就叫做一个假设）。但毫无疑问，真实模型一定是不知道的，既然真实模型不知道，那么我们选择的假设与问题真实解之间究竟有多大差距，我们就没法得知。比如说我们认为宇宙诞生于150亿年前的一场大爆炸，这个假设能够描述很多我们观察到的现象，但它与真实的宇宙模型之间还相差多少？谁也说不清，因为我们压根就不知道真实的宇宙模型到底是什么。

这个与问题真实解之间的误差，就叫做风险。我们选择了一个假设之后（一个策略模型），我们不断的来逼近真实模型，最直观的想法就是使用优化手段来使样本数据上的结果与真实结果尽量逼近（提升收益率、降低回撤等等）。于是我们得出了我们认为比较好的近似模型，这个近似模型的与真实模型之间的差距（当然有差距，哪个模型都做不到100%的正确率，呵呵），我们称之为经验风险，这时我们的目的就是要使经验风险最小化。但是，这个经验风险是建立在我们用到的已知样本数据之上的。但在样本数据之外（实盘）的数据中，我们原来认为比较好的模型却往往亏得一塌糊涂，此时的情况便是选择了一个过度拟合的优化程序。回头看看经验风险最小化原则我们就会发现，此原则适用的大前提是经验风险要确实能够逼近真实风险才行。但实际上能逼近么？答案是不能，因为样本数据相对于真实世界来说简直九牛一毛，经验风险最小化原则只在这占很小比例的样本上做到没有误差，但不能保证在更大比例的真实世界里也没有误差。

统计学习因此而引入了泛化误差界的概念，就是指真实风险应该由两部分内容刻画，一是经验风险，代表了模型在给定样本上的误差；二是置信风险，代表了我们在多大程度上可以信任此模型在未知数据上的结果。很显然，第二部分是没有办法精确计算的，因此只能给出一个估计的区间，也使得整个误差只能计算上界，而无法计算准确的值（所以叫做泛化误差界，而不叫泛化误差）。

置信风险与两个量有关，一是样本数量，显然给定的样本数量越大，我们的学习结果越有可能正确，此时置信风险越小；二是模型（函数）的VC维，显然VC维越大，推广能力越差，置信风险会变大。

所谓VC维是对函数类的一种度量，我们可以简单的理解为模型的复杂程度，VC维越高，一个模型就越复杂。一个过度优化的程序肯定VC维很高。

主题：[原创]读老树新芽的“我的程序化研究心得”有感