Kernel Method
🪩

Kernel Method

 

🌱 一、直觉出发:为什么要用 Kernel?

想象我们要做一个分类任务:
你有一堆点,有的属于红色类,有的属于蓝色类。
在二维空间里,你画一条直线去分开它们。
但是,有时候这些点就是线性不可分的怎么办?
👉 想法:如果我们能把这些点映射到更高维空间,也许能分开!
例如,我们可以引入一个新特征:
[
]
那么原本圆形分布的数据,在 3D 空间中就可能线性可分了。

💡 二、映射的想法:Feature Mapping

数学上,我们把这种“映射”记为:
[
]
把原始输入 ( x ) 变成高维空间的特征:
[
]
在这个空间中,我们可以用线性方法(比如线性分类器、线性回归、SVM)来学习。
但问题是:
高维度的映射计算量非常大,甚至可能是无限维的。

⚡ 三、Kernel Trick(核技巧)

奇迹发生在这里。
在许多算法(尤其是 SVM)中,最终只会用到内积:
[
]
于是我们就可以定义一个核函数 (Kernel Function)
[
]
而不需要显式地算出 ()!
👉 换句话说:
核方法让我们在不真正进入高维空间的情况下,获得高维的计算效果。
这就是著名的 Kernel Trick

🔢 四、常见的核函数

核函数类型
公式
直觉含义
线性核
原空间内积(无映射)
多项式核
将特征升高次,适合非线性关系
RBF核(高斯核)
衡量相似度,距离近 → 值大;距离远 → 值小
Sigmoid核
类似神经网络的激活函数

🧠 五、以 SVM 为例:如何用 Kernel

在线性 SVM 中,我们要找一个超平面:
在核 SVM 中,我们改写为:
也就是说,最终模型完全通过核函数来表达,而不需要显式地求出高维特征。

🧩 七、Kernel Method 的应用

应用
说明
SVM (Support Vector Machine)
核方法的最典型代表,用于分类/回归
Kernel PCA
在高维特征空间做PCA,提取非线性主成分
Gaussian Process
用核函数定义样本之间的相关性
Kernel Ridge Regression
在核空间中做岭回归

🔍 八、总结(面试思路版)

问题
简答
核方法的核心思想是什么?
用核函数代替高维映射,实现非线性建模
Kernel Trick 是什么?
在不显式映射的情况下,通过核函数计算高维内积
为什么有用?
避免高维计算,提升表达能力
常见核函数?
线性核、多项式核、RBF核、Sigmoid核
实际应用?
SVM、PCA、GP、Ridge Regression 等

🌟 直觉一句话总结:

Kernel 方法 = “偷偷地”在高维空间里做线性模型。
我们不去算高维特征,只用核函数代替内积,就能捕捉非线性关系。

 
 
 
 

🧠 一、公式写法与含义

这是模型的预测函数,它输出某个样本 (x) 的预测值(例如分类时的得分)。
符号
含义
()
第 i 个训练样本
()
第 i 个训练样本的标签(+1 或 -1)
()
训练中学到的权重参数(支持向量的权重)
(
核函数,衡量 (x_i) 与新样本 (x) 的相似度
偏置项(bias)

🧩 二、它在做什么?直觉解释

直觉版解释:

预测一个新点 (x) 时,
模型会“看”每个训练样本 (x_i),衡量它和 (x) 的相似度 (K(x_i, x))。
然后根据这些相似度的加权和(权重是 (\alpha_i y_i))来决定 (x) 属于哪一类。
换句话说:
(f(x)) 是“相似样本投票”的结果。

举个例子:

假设我们训练了一个 SVM,得到:
样本
标签 (y_i)
权重 (\alpha_i)
A
+1
0.7
B
-1
0.6
C
+1
0.0(非支持向量)
那么预测新点 (x) 时:
[
]
如果 (x) 比较接近 A,那么 (K(A, x)) 较大,
整体 (f(x)) 就偏正 → 预测为正类。

⚡ 三、是否所有核方法都用这个形式?

是的,几乎所有基于核的模型都遵循这一形式。
无论是:
  • Kernel SVM(分类)
  • Kernel Ridge Regression(回归)
  • Gaussian Process Regression
  • Kernel Logistic Regression
  • Kernel PCA(特征映射版)
它们的最终预测函数都可以写成:
[
]
或者加上标签:
[
]
👉 这叫做 Representer Theorem(表示定理)
在核空间中训练得到的最优函数,一定可以表示成核函数与训练样本的线性组合。

🔢 四、那 是什么?有明确计算公式吗?

有!必须有。
核函数 (K) 是一个明确定义的函数,用来计算“相似度”,必须能显式计算
常见的几种如下:
核类型
公式
含义
线性核
原空间内积
多项式核
引入高阶特征
RBF(高斯核)
衡量“距离相似度”
Sigmoid核
类似神经元激活函数
🔹只要核函数是“正定的”(positive definite),就可以用作有效的 kernel。

🌌 五、几何直觉(为什么加核)

核函数隐式地计算了:
[
]
其中 是一个映射到高维空间的函数。
所以:
 
也就是说:
在高维空间里,这其实就是一个“线性模型”!

🧠 六、总结表格

问题
答案
这个公式表示什么?
模型预测值由所有训练样本的加权相似度组成
每个 α_i 的意义?
表示样本 i 对最终分类边界的影响强度
K 一定有公式吗?
一定有(必须能计算出)
不同核是否都用这个公式?
是的,只是 K 的形式不同
为什么可以这样写?
因为核技巧 + 表示定理,保证解的形式一定是这种线性组合