机器学习基石笔记(3)

文章目录

最大的最大:B(N,K)
VC Bound
VC Dimension

2016.11.30更新: VC维

上一节，我们把 leaning问题归结到了我们提到需要证明dichotomies是多项式的，这样就可以保证在N比较大的时候，BAD DATA出现的概率是很小的，这样就说明我们的 learning学到了东西，可以用来预测。

下面求证$m_{\mathcal{H}}$ 是多项式

最大的最大:B(N,K)

我们提到了 break point 是第一个满足: $m_{\mathcal{H}}(N) < 2^N$ 的N，那我们可以得到什么信息呢？假设 $K=k$，首先K之前的均被$\mathcal{H}$ shatter掉了， K及K之后的则没有，如下:

$N < K$: every $m_{}{N} = 2^N $
$N \geq K$: every $m_{\mathcal{H}}(N) < 2^N$，对于 N > K的D, 显然$m < 2^N$

举一个简单的例子: 假设K=2, 求$m_{\mathcal{H}}(N=3)$，如下:

经过实验发现，其最大为4, 因为k=2,限制了$x_1, x_2, x_3$中任意两个点都不能被$\mathcal{H}$给shatter了，这里就会发现 break point的作用了, 限制$m_{\mathcal{H}}$的上界。下面定义Bounding Function:\[B(N,K) = max(m_{\mathcal{H}}(N)), s.t. break\ point = K \]

因为成长函数$m_{\mathcal{H}}(N)$就是$\mathcal{H}$对输入$x_1...x_N$可以产生的dichotomies的最大值，所以B(N,K)就是最大值的最大。

如下，我们分情况讨论： \[ \begin{align} B(N, 1) &= 1 \\ B(N, k) &= 2^N,\ N < k\\ B(N, k) &= 2^N-1,\ N=k \\ B(N, k) &= ? \ N>K \end{align} \]

在课程中，老师举了一个求B(4,3)=11的例子: 通过归纳法的思想，推导出N>K下，$B(N,K)$的递推公式:\[B(N,K) \leq B(N-1,K) + B(N-1, K-1)\] 正如下面的图所描述的:

下面我们根据递推式，通过数学归纳法来证明:$B(N,K) \leq \sum\limits_{i=0}^{K-1} \left( \begin{array}{c}N \\ i \end{array}\right)$.

当N=1或者K=1时，显然成立。假设当$N=N_0$时， $B(N_0,K) \leq \sum\limits_{i=0}^{K-1} \left( \begin{array}{c}N_0 \\ i \end{array}\right)$，则当$N=N_0 + 1$时: \[ \begin{align} B(N_0 +1, K) & \leq B(N_0, K) + B(N_0, K-1) \\ & \leq \sum\limits_{i=0}^{K-1} \left( \begin{array}{c}N_0 \\ i \end{array}\right) + \sum\limits_{i=0}^{K-2} \left( \begin{array}{c}N_0 \\ i \end{array}\right) \\ & \leq 1 + \sum\limits_{i=1}^{K-1} \left( \left( \begin{array}{c}N_0\ i \end{array} \right) + \left(\begin{array}{c}N_0\\i-1 \end{array}\right) \right) \\ & \leq 1 + \sum\limits_{i=1}^{K-1} \left( \begin{array}{c}N_0+1 \\ i \end{array} \right) \\ & \leq \sum\limits_{i=0}^{K-1}\left( \begin{array}{c}N_0+1 \\ i \end{array} \right) \end{align} \] 得证: $B(N_0,K) \leq \sum\limits_{i=0}^{K-1} \left( \begin{array}{c}N_0 \\ i \end{array}\right)$ 很明显,$B(N_0,K) \leq \sum\limits_{i=0}^{K-1} \left( \begin{array}{c}N_0 \\ i \end{array}\right) = O(N^{K-1})$, 多项式复杂度,曙光出现。到这里，我们需要需要理一下思路了。 \[P\left[ | E_{in}(h) - E_{out}(h)| > \epsilon \right] \leq 2 m_{\mathcal{H}}(N) exp(-2\epsilon^2N)\] 我们知道当出现BAD DATA时候，会导致$E_{in}$与$E_{out}$变大，此时learning并不可行，因此我们开始计算BAD DATA出现的概率，它与$\mathcal{H}$的数目有关系，而很多情况，h都是无限的，于是我们转为求h中的类别数目，我们定义了$dichotomies$ 以及$m_{\mathcal{H}}(N)$, 也就是上述的不等式，在一些简单的情况下，$m_{\mathcal{H}}(N)$是很容易求的，比如postive rays里面, $m_{\mathcal{H}} = N+1$ 等，但是很多我们并不能求出来，比如2D percertron,(PLA), 这个时候，我们定义break point 转而去求$m_{\mathcal{H}}$的上界$B(N,K)$，最终我们证明了$B(N,K) = O(N^{K-1})$。到这里我们基本证明以Perceptrons为例，说明了为什么机器可以学习，为什么训练数据集越大，测试效果越好。不过还有点小问题，在下面说明。

VC Bound

我们前面基本都在围绕这训练数据也就是$\mathcal{D}$或者$E_{in}$讨论，把$\mathcal{H}$根据在$\mathcal{D}$上的表现分门别类，这样$E_{in}$就会是有限个，但是却忽略了每一个$h$的$E_{out}$ 是不一样的，也就是说$E_{out}(h)$是无穷多个的，所以说上述的不等式是不太严谨的，实际上的不等式是下面的: \[ \begin{align} \mathbb{P}[BAD] &= \mathbb{P}[\exists h \in \mathcal{H}\text{ s.t. } |E_{in}(h)-E_{out}(h)|\gt \epsilon] \\\ &\leq 4m_{\mathcal{H}}(2N)exp(-\frac{1}{8}\epsilon^2N) \end{align} \] 证明的主要原则是，如果某个$E_{in}$与$E_{out}$的差别很大时，那么我们重新找一份数据集$D^{'}$, 那么$E_{in}^{'}$也会有很大的几率与$E_{in}$差别很大。具体证明还没搞太明白，先记下了。另外，上面的不等式就是VC-bound.

VC Dimension

下面我们基于break point 给出 VC Dimension(VC 维)的定义:\[d_{VC}(\mathcal{H})= \max\limits_{N} m_{\mathcal{H}} = 2^N\]也就是break point K的前一个: $d_{VC} = K - 1$(break point存在的前提下)。我们可以看看上述的4种$\mathcal{H}$的VC Dimension

下面我们看看VC维可以给我们带来什么信息。已知成长函数$m_{\mathcal{H}} \leq N^{k-1}=N^{d_{vc}}$，然后代入上述的VC Bound:

\[\begin{align*} \mathbb{P}[BAD] &= \mathbb{P}[\exists h \in \mathcal{H}\text{ s.t. } |E_{in}(h)-E_{out}(h)|\gt \epsilon] \\ &\leq 4m_{\mathcal{H}}(2N)exp(-\frac{1}{8}\epsilon^2N) \\ &= 4(2N)^{d_{vc}} exp(-\frac{1}{8}\epsilon^2N)\end{align*}\] 那么怎么样才可以说明机器学到了东西呢？有以下三点:

存在break point即 $d_{vc}(\mathcal{H})$是有限的，这样的$\mathcal{H}$才是good的
训练数据足够多: N 够大，这样vc bound 可以约束$E_{in} = E_{out}$
算法$\mathcal{}A$ 可以找到一个$E_{in}$最小的h

这样我们就可以说 learned something。以2D Perceptron 为例如下：

当然实际中，$E_{in}$很难为0。那我们可以怎么去理解这个VC 维度呢？由定义可以知道，VC 维与学习算法$\mathcal{H}$，输入数据$\mathcal{D}$，以及目标的理想函数$f$都是无关的，它是假设空间$\mathcal{H}$的一个描述，刻画出了$\mathcal{H}$的powerfulness，因为$d_{vc}$越大，可以shatter的点就越多，能力就越强，也就是说我们的$d_{vc}(\mathcal{H})$越大，那么就越可以保证存在一个 h,使得$E_{in}(h)$越小。

那我们应该如何去求解VC 维呢？总不能一个一个试，看看能不能被shatter掉。这时候就引入了模型自由度的概念。我们定义模型当中可以自由变动的参数的个数，也就是需要求的参数的个数作为模型自由度，比如在 PLA中，参数为$w_0,w_1...w_d$ 一共有$d+1$个，那么模型的自由度就是$d+1$，同时我们也知道假设空间$\mathcal{H}$的VC 维是 $d+1$。这不是巧合，有个经验规律：VC维约等于模型的自由度，即参数的个数。以后我们就可以用模型自由度近似代替$d_{vc}$的数值了。

再次回到VC Bound:\[\mathbb{P}[\exists h \in \mathcal{H}\text{ s.t. } |E_{in}(h)-E_{out}(h)|\gt \epsilon] = 4(2N)^{d_{vc}} exp(-\frac{1}{8}\epsilon^2N)\]其中等式右边为坏数据发生的概率，我们设为$\delta$,那么好数据的概率就是$1-\delta$，在统计学中，这个$1-\delta$又叫做置信度。有了$\delta$，我们可以反解出误差率(也叫泛化误差)$\epsilon$:

\[ \epsilon= \sqrt{\frac{8}{N}ln(\frac{4(2N)^{d_{vc}}}{\delta})} \]它就是$E_{in}$和$E_{out}$的差距，对于好数据来说，有很大的几率：$\| E_{in} - E_{out} \| < \epsilon$，代入 $\epsilon$即:

\[E_{in}(g)-\sqrt{\frac{8}{N}ln(\frac{4(2N)^{d_{vc}}}{\delta})} \leq E_{out}(g) \leq E_{in}(g)+\sqrt{\frac{8}{N}ln(\frac{4(2N)^{d_{vc}}}{\delta})} \]其中根号里面的式子$\Omega (N,\mathcal{H},\delta)=\sqrt{...}$ 称为model complexity(模型复杂度)。自始至终我们最关心的肯定是$E_{out}$，我们的目标就是让它越小越好，这样才可以在未知数据中表现的好，从不等式中，我们可以看出$E_{out}$的上限会被模型复杂度影响。根据上述的不等式，有了下述的一个关系图:

这个图很重要，也很常用，随着$d_{vc}$的上升，$E_{in}$越来越低，但是 model complexity 会一直变大，这样就会导致$E_{out}$也会慢慢变大！这并不是我们想要的结果。也就是说并不是你的$\mathcal{H}$越强大越好其实这个就对应后面讲的过拟合的问题，因此我们需要的是图中的$d_{vc}^{*}$的位置的模型，一个折中的选择，这个也可以对应奥卡姆剃刀理论，简单至上。

最后再说明下样本复杂度的影响，以一个例子做说明，如下：

就是对于2D percetron，给定了误差率$\epsilon$，置信度$1-\delta=0.9$。让求需要多少数据量才可以满足条件。很简单直接代入公式就好了，我们可以看出，大概需要3w左右也就是10000倍的$d_{vc}$的训练数据量才可以达到90%的置信度，这可能有点难以接受。幸亏这只是上界，在实际经验中，仅仅需要10倍的$d_{vc}$就可以达到要求。我们发现，VC Bound 的 losseness是十分松弛的，这正是因为我们一直都是再取上界的上界，都是在进行放缩操作，比如$m_{\mathcal{H}}(N) \leq N^(k-1)$。再加上VC Bound的通用性，与数据的分布什么的都没关系。

总结一下的话，其实就是介绍了VC维的定义，以及我们可以用模型自由度来近似代替VC维的大小，最后介绍了VC维以及VCbound 带给我们什么信息，它与训练误差，测试误差之间的联系等。VC 维是个很重要的概念，是机器学习可以学习的理论基础，我们有了合适的$d_{vc}$，有足够的训练数据量，有一个好的算法可以找到一个$E_{in}$最小的h，就说明我们的机器学到东西了。总算总结完了，VC-Dimension 这个坑到今天总算填上了。

本文标题: 机器学习基石笔记(3)

发布时间: 2016-10-17, 17:59:49

最后更新: 2021-12-16, 23:11:45

本文链接: http://shomy.top/2016/10/17/feasibility-of-learning-3/

非商业转载请注明作者及出处。商业转载请联系作者本人。