[原创]读老树新芽的“我的程序化研究心得”有感 - 程序化交易实盘俱乐部 - 金字塔客服中心 - 专业程序化交易软件提供商

逛金字塔论坛几年了，读了不少牛人的帖子，昨天看了老树新芽一篇“我的程序化研究心得”的帖子，感触颇深，今天准备冒个泡，嘿嘿。
我来说说我的理解和看法吧。传统的程序化交易策略的开发的本质是用已知数据（历史数据）来逼近问题的真实模型。（我们选择一个我们认为比较好的近似模型，这个近似模型就叫做一个假设）。但毫无疑问，真实模型一定是不知道的，既然真实模型不知道，那么我们选择的假设与问题真实解之间究竟有多大差距，我们就没法得知。比如说我们认为宇宙诞生于150亿年前的一场大爆炸，这个假设能够描述很多我们观察到的现象，但它与真实的宇宙模型之间还相差多少？谁也说不清，因为我们压根就不知道真实的宇宙模型到底是什么。

这个与问题真实解之间的误差，就叫做风险。我们选择了一个假设之后（一个策略模型），我们不断的来逼近真实模型，最直观的想法就是使用优化手段来使样本数据上的结果与真实结果尽量逼近（提升收益率、降低回撤等等）。于是我们得出了我们认为比较好的近似模型，这个近似模型的与真实模型之间的差距（当然有差距，哪个模型都做不到100%的正确率，呵呵），我们称之为经验风险，这时我们的目的就是要使经验风险最小化。但是，这个经验风险是建立在我们用到的已知样本数据之上的。但在样本数据之外（实盘）的数据中，我们原来认为比较好的模型却往往亏得一塌糊涂，此时的情况便是选择了一个过度拟合的优化程序。回头看看经验风险最小化原则我们就会发现，此原则适用的大前提是经验风险要确实能够逼近真实风险才行。但实际上能逼近么？答案是不能，因为样本数据相对于真实世界来说简直九牛一毛，经验风险最小化原则只在这占很小比例的样本上做到没有误差，但不能保证在更大比例的真实世界里也没有误差。

统计学习因此而引入了泛化误差界的概念，就是指真实风险应该由两部分内容刻画，一是经验风险，代表了模型在给定样本上的误差；二是置信风险，代表了我们在多大程度上可以信任此模型在未知数据上的结果。很显然，第二部分是没有办法精确计算的，因此只能给出一个估计的区间，也使得整个误差只能计算上界，而无法计算准确的值（所以叫做泛化误差界，而不叫泛化误差）。

置信风险与两个量有关，一是样本数量，显然给定的样本数量越大，我们的学习结果越有可能正确，此时置信风险越小；二是模型（函数）的VC维，显然VC维越大，推广能力越差，置信风险会变大。

所谓VC维是对函数类的一种度量，我们可以简单的理解为模型的复杂程度，VC维越高，一个模型就越复杂。一个过度优化的程序肯定VC维很高。

你不说还有下文吗，眼巴巴等下文呢

楼主冒的泡是很有道理的，但对实际模型开发的指导性和可操作性可能不强。建议将公式调整为未来=过去-风险控制。这样表明拟合过去的工作也是十分重要的，虽然过去好未来不一定是真的好,但是过去不好，未来肯定是不好的；而风险控制的目的就是使未来更接近于过去的研究成果。这样公式说明一个交易模型就必须由过去拟合和风险控制这两块核心内容组成，而且两者又是相辅相成和密切相关的，然而从某种意义上说所釆用的风险控制技术和方法则是未来取得正收益的关键。

以下是引用cww在2014/11/22 20:46:56的发言：
楼主冒的泡是很有道理的，但对实际模型开发的指导性和可操作性可能不强。建议将公式调整为未来=过去-风险控制。这样表明拟合过去的工作也是十分重要的，虽然过去好未来不一定是真的好,但是过去不好，未来肯定是不好的；而风险控制的目的就是使未来更接近于过去的研究成果。这样公式说明一个交易模型就必须由过去拟合和风险控制这两块核心内容组成，而且两者又是相辅相成和密切相关的，然而从某种意义上说所釆用的风险控制技术和方法则是未来取得正收益的关键。

高

楼主说得比较专业啊！我用大白话来表达一下：买衣服，去量身定做的衣服，在具体细节上剪裁得越精细对某人越合身，必然对其他人越不合身。能让大多数人相对显得合身的是均码的衣服。

单一的某人——历史局部阶段的样本数据，其他人——未来未知的样本外数据。

高

原来知秋兄也在，打个招呼。

我们永远无法知道隐藏的风险。可能构造系统，实现风险引起的效用的非线性。

主题：[原创]读老树新芽的“我的程序化研究心得”有感