AI课程笔记-1

flowwalker2026-04-292026-04-30

杂记

记录比较不熟悉, 或者比较直观的理解

关于不熟的损失函数

1. Focal Loss (类不平衡场景)

直观理解

在目标检测（如检测图中的大楼）时，背景（负样本）的数量远多于目标（正样本）。传统的交叉熵损失中，大量简单的背景样本虽然单个损失小，但累加起来会淹没少量的困难样本。Focal Loss 通过给损失加一个“调节开关”：如果样本容易分类（预测概率 $p$ 接近 1），就大幅降低它的权重；如果样本难分类，权重相对保持。

数学推导

标准的二分类交叉熵（Binary Cross Entropy, BCE）定义为：

CE(p, y) = \begin{cases} -\log(p) & \text{if } y=1 \\ -\log(1-p) & \text{if } y=0 \end{cases}

定义 $p_t$ 简化表达：

p_t = \begin{cases} p & \text{if } y=1 \\ 1-p & \text{if } y=0 \end{cases} \implies CE(p, y) = -\log(p_t)

Focal Loss 在此基础上引入了调制因子 $(1-p_t)^\gamma$ ：

FL(p_t) = -(1-p_t)^\gamma \log(p_t)

当样本易分类时： $p_t \to 1$ ，则 $(1-p_t)^\gamma \to 0$ ，损失被显著抑制。
当样本难分类时： $p_t \to 0$ ，则 $(1-p_t)^\gamma \to 1$ ，损失几乎不受影响。
常数 $\alpha$ 用于进一步平衡正负样本比例。

2. Dice Loss (图像分割场景)

直观理解

图像分割本质上是像素级的分类。如果目标只占图像的 1%，即使模型预测全是背景，准确率也有 99%，但这对分割毫无意义。Dice Loss 直接优化预测区域与真实区域的相交程度。它只关心“对上的部分”，不关心“背景有多大”。

数学推导

Dice 系数（Dice Coefficient）源于集合论，用于衡量两个集合的相似度：

DSC(A, B) = \frac{2|A \cap B|}{|A| + |B|}

在计算机视觉中，设 $x_i$ 为预测概率， $y_i$ 为真实标签（0 或 1）：

$|A \cap B|$ 对应元素相乘求和： $\sum x_i y_i$
$|A| + |B|$ 对应元素各自求和： $\sum x_i + \sum y_i$

得到 Dice 系数公式：

Dice(X, Y) = \frac{2\sum_i x_i y_i}{\sum_i x_i + \sum_i y_i}

由于我们要最小化损失，而 $Dice$ 越大越好（最大为 1），因此定义 Dice Loss 为：

DiceLoss(X, Y) = 1 - \frac{2\sum_i x_i y_i}{\sum_i x_i + \sum_i y_i}

3. Hinge Loss (支持向量机)

直观理解

Hinge Loss（合页损失）是一种“不满足就惩罚”的策略。它不仅要求你分类正确，还要求你分类得足够自信（超过一个安全边际 Margin）。如果分类正确但离边界太近（不够自信），它依然会给你微小的惩罚；一旦分类错误，惩罚随距离线性增加。

数学推导

在 SVM 中，我们希望 $y_i \cdot f(x_i) \geq 1$ （这里 $y_i \in \{+1, -1\}$ ）。

情况 1：分类正确且信心十足
如果 $y_i \cdot f(x_i) \geq 1$ ，说明预测值与真实值同号且绝对值大，此时损失应为 $0$ 。
情况 2：分类错误或离边界太近
如果 $y_i \cdot f(x_i) < 1$ ，此时损失为距离目标边界的差值，即 $1 - y_i f(x_i)$ 。

综合上述两种情况，得到：

HingeLoss = \max(0, 1 - y_i f(x_i))

严谨性注记：

这个函数在 $y_i f(x_i) = 1$ 处是不可导的（转折点），在实际工程中通常使用次梯度（Sub-gradient）或其平滑变体进行优化。

关于目标

1. 期望风险：机器学习的理想目标

直观理解

假设你有一台能预知未来的机器，它知道世界上所有可能出现的 $X$ （特征）和 $Y$ （标签）的组合及其出现的概率。期望风险就是这台模型在无穷多未来预测中产生的“平均损失”。

数学背景

机器学习的目标是找到一个函数 $f$ ，使得在联合概率分布 $P(X, Y)$ 下的损失期望达到最小：

R_{exp}(f) = \mathbb{E}_{XY}[\text{loss}(Y, f(X))] = \int \text{loss}(y, f(x)) dP(x, y)

局限性：在现实中，联合分布 $P(X, Y)$ 是未知的，我们无法直接计算这个积分。

2. 经验风险：务实的近似

直观理解

既然不知道整体分布，我们只能基于手头已有的 $n$ 个“经验数据”（训练集）来评估模型。经验风险就是模型在这 $n$ 个已知样本上的平均损失。

数学背景

利用训练数据集 $\{(X^{(j)}, Y^{(j)})\}_{j=1}^n$ 计算均值：

R_{emp}(f) = \frac{1}{n} \sum_{j=1}^n \text{loss}(Y^{(j)}, f(X^{(j)}))

机器学习的实际操作通常是去寻找最小化该值的函数 $\min_f R_{emp}(f)$ 。

3. 数学连接：为什么可以这样做？

这种近似的严谨性建立在大数定律 (Law of Large Numbers) 之上：

当样本量 $n \to \infty$ 时，样本均值（经验风险）以概率 $1$ 收敛于其数学期望（期望风险）：

P\left( \lim_{n \to \infty} R_{emp}(f) = R_{exp}(f) \right) = 1

这意味着：只要数据量足够大，你在训练集上优化的目标函数，在逻辑上是趋近于理想目标的。

4. 经验风险最小化的局限（ERM 的陷阱）

虽然数学上收敛，但在实际有限样本（ $n$ 为常数）的情况下，ERM 存在核心矛盾：

过拟合 (Overfitting)：如果模型 $f$ 的复杂度过高，它可能仅仅为了让 $R_{emp}$ 趋近于 $0$ 而记住了噪声，但这并不能保证 $R_{exp}$ 同样小。
结构风险最小化 (SRM)：为了防止 ERM 失效，通常会在公式后面加上正则化项 (Regularization) $\lambda \Omega(f)$ ，从而平衡“经验误差”与“模型复杂度”。

f^* = \arg\min_f \left( \frac{1}{n} \sum_{j=1}^n \text{loss}(Y^{(j)}, f(X^{(j)})) + \lambda \Omega(f) \right)

以下内容估计无法在期中考试前理解,遂先存放于此:

关于正则化与贝叶斯解释

1. 直观理解

几何视角：给不稳定的空间“加点刚度”

在线性代数中， $\mathbf{A}^T\mathbf{A}$ 不可逆意味着特征空间中存在冗余，导致投影方向不唯一。从几何上看，岭回归（Ridge Regression）通过在对角线上加上 $\lambda$ ，相当于在损失函数的等高线上施加了一个圆形的约束。这迫使解不能无限延伸，从而在损失一点点训练集精度（Bias）的代价下，极大增强了模型在面对扰动时的稳定性（Variance）。

贝叶斯视角：我有“先验”偏见

之前我们默认参数 $\beta$ 取任何值概率都一样，但现在我们增加了一个先验假设：我们认为 $\beta$ 不应该太大。引入 $\beta \sim \mathcal{N}(0, \tau^2 I)$ 意味着我们倾向于让模型权重趋向于 0，除非数据给出了极强的证据证明某项特征非常重要。

2. 严谨数学推导：从贝叶斯到 MAP

我们要证明：对权重施加高斯先验的最大后验估计（MAP），等价于 L2 正则化的最小二乘法。

步骤 1：贝叶斯公式

根据贝叶斯定理，后验概率正比于似然函数与先验概率的乘积：

P(\beta | Y, X) \propto P(Y | X, \beta) \cdot P(\beta)

步骤 2：定义概率分布

似然函数 $P(Y | X, \beta)$ ：假设噪声服从高斯分布 $\epsilon \sim \mathcal{N}(0, \sigma^2)$ ，则样本似然为：
$P(Y | X, \beta) \propto \exp\left( -\frac{1}{2\sigma^2} \sum_{i=1}^n (Y_i - X_i \beta)^2 \right)$
先验分布 $P(\beta)$ ：图片给定 $\beta \sim \mathcal{N}(0, \tau^2 I)$ ，即：
$P(\beta) \propto \exp\left( -\frac{1}{2\tau^2} \|\beta\|_2^2 \right)$

步骤 3：取对数并最大化后验 (MAP)

最大化后验概率等价于最小化负对数后验：

-\log P(\beta | Y, X) \propto \frac{1}{2\sigma^2} \sum_{i=1}^n (Y_i - X_i \beta)^2 + \frac{1}{2\tau^2} \|\beta\|_2^2

提取系数 $\frac{1}{2\sigma^2}$ ，令 $\lambda = \frac{\sigma^2}{\tau^2}$ ，目标函数变为：

\min_\beta \sum_{i=1}^n (Y_i - X_i \beta)^2 + \lambda \|\beta\|_2^2

这正是图片中给出的岭回归目标函数。

3. 闭式解的推导

利用矩阵微积分对目标函数 $J(\beta) = (\mathbf{Y} - \mathbf{A}\beta)^T(\mathbf{Y} - \mathbf{A}\beta) + \lambda \beta^T \beta$ 求导：

展开梯度：
$\frac{\partial J}{\partial \beta} = -2\mathbf{A}^T(\mathbf{Y} - \mathbf{A}\beta) + 2\lambda\beta$
令梯度为零：
$\mathbf{A}^T\mathbf{A}\beta + \lambda\beta = \mathbf{A}^T\mathbf{Y}$ $(\mathbf{A}^T\mathbf{A} + \lambda\mathbf{I})\beta = \mathbf{A}^T\mathbf{Y}$
求得闭式解：
$\hat{\beta} = (\mathbf{A}^T\mathbf{A} + \lambda\mathbf{I})^{-1}\mathbf{A}^T\mathbf{Y} \text{}$

4. 性质深度解析

应对共线性： $\mathbf{A}^T\mathbf{A}$ 若不满秩，其特征值中会有 0。加上 $\lambda \mathbf{I}$ 后，矩阵的所有特征值至少为 $\lambda > 0$ ，从而保证了矩阵严格可逆。
平滑压缩权重：L2 范数（ $\sum \beta_j^2$ ）对大权重的惩罚极重，对小权重的惩罚逐渐变轻，因此它会倾向于让所有权重都变小，但通常不会像 L1（Lasso）那样将其直接压缩到 0。
泛化能力：通过引入 $\lambda$ （正则化系数），我们在训练集误差和模型复杂度之间做了权衡（Bias-Variance Tradeoff），有效抑制了过拟合。