AI笔记 AI 笔记 AI课程笔记-1 flowwalker 2026-04-29 2026-04-30 杂记记录比较不熟悉, 或者比较直观的理解
关于不熟的损失函数 1. Focal Loss (类不平衡场景) 直观理解 在目标检测(如检测图中的大楼)时,背景(负样本)的数量远多于目标(正样本)。传统的交叉熵损失中,大量简单的背景样本虽然单个损失小,但累加起来会淹没少量的困难样本。Focal Loss 通过给损失加一个“调节开关”:如果样本容易分类(预测概率 p p p 接近 1),就大幅降低它的权重;如果样本难分类,权重相对保持。
数学推导 标准的二分类交叉熵(Binary Cross Entropy, BCE)定义为:
C E ( p , y ) = { − log ( p ) if y = 1 − log ( 1 − p ) if y = 0 CE(p, y) = \begin{cases} -\log(p) & \text{if } y=1 \\ -\log(1-p) & \text{if } y=0 \end{cases} C E ( p , y ) = { − log ( p ) − log ( 1 − p ) if y = 1 if y = 0
定义 p t p_t p t 简化表达:
p t = { p if y = 1 1 − p if y = 0 ⟹ C E ( p , y ) = − log ( p t ) p_t = \begin{cases} p & \text{if } y=1 \\ 1-p & \text{if } y=0 \end{cases} \implies CE(p, y) = -\log(p_t) p t = { p 1 − p if y = 1 if y = 0 ⟹ C E ( p , y ) = − log ( p t )
Focal Loss 在此基础上引入了调制因子 ( 1 − p t ) γ (1-p_t)^\gamma ( 1 − p t ) γ :
F L ( p t ) = − ( 1 − p t ) γ log ( p t ) FL(p_t) = -(1-p_t)^\gamma \log(p_t) F L ( p t ) = − ( 1 − p t ) γ log ( p t )
当样本易分类时 :p t → 1 p_t \to 1 p t → 1 ,则 ( 1 − p t ) γ → 0 (1-p_t)^\gamma \to 0 ( 1 − p t ) γ → 0 ,损失被显著抑制。当样本难分类时 :p t → 0 p_t \to 0 p t → 0 ,则 ( 1 − p t ) γ → 1 (1-p_t)^\gamma \to 1 ( 1 − p t ) γ → 1 ,损失几乎不受影响。常数 α \alpha α 用于进一步平衡正负样本比例。 2. Dice Loss (图像分割场景) 直观理解 图像分割本质上是像素级的分类。如果目标只占图像的 1%,即使模型预测全是背景,准确率也有 99%,但这对分割毫无意义。Dice Loss 直接优化预测区域与真实区域的相交程度 。它只关心“对上的部分”,不关心“背景有多大”。
数学推导 Dice 系数(Dice Coefficient)源于集合论,用于衡量两个集合的相似度:
D S C ( A , B ) = 2 ∣ A ∩ B ∣ ∣ A ∣ + ∣ B ∣ DSC(A, B) = \frac{2|A \cap B|}{|A| + |B|} D S C ( A , B ) = ∣ A ∣ + ∣ B ∣ 2 ∣ A ∩ B ∣
在计算机视觉中,设 x i x_i x i 为预测概率,y i y_i y i 为真实标签(0 或 1):
∣ A ∩ B ∣ |A \cap B| ∣ A ∩ B ∣ 对应元素相乘求和:∑ x i y i \sum x_i y_i ∑ x i y i ∣ A ∣ + ∣ B ∣ |A| + |B| ∣ A ∣ + ∣ B ∣ 对应元素各自求和:∑ x i + ∑ y i \sum x_i + \sum y_i ∑ x i + ∑ y i 得到 Dice 系数公式:
D i c e ( X , Y ) = 2 ∑ i x i y i ∑ i x i + ∑ i y i Dice(X, Y) = \frac{2\sum_i x_i y_i}{\sum_i x_i + \sum_i y_i} D i c e ( X , Y ) = ∑ i x i + ∑ i y i 2 ∑ i x i y i
由于我们要最小化损失,而 D i c e Dice D i c e 越大越好(最大为 1),因此定义 Dice Loss 为:
D i c e L o s s ( X , Y ) = 1 − 2 ∑ i x i y i ∑ i x i + ∑ i y i DiceLoss(X, Y) = 1 - \frac{2\sum_i x_i y_i}{\sum_i x_i + \sum_i y_i} D i c e L o s s ( X , Y ) = 1 − ∑ i x i + ∑ i y i 2 ∑ i x i y i
3. Hinge Loss (支持向量机) 直观理解 Hinge Loss(合页损失)是一种“不满足就惩罚”的策略。它不仅要求你分类正确,还要求你分类得足够自信(超过一个安全边际 Margin) 。如果分类正确但离边界太近(不够自信),它依然会给你微小的惩罚;一旦分类错误,惩罚随距离线性增加。
数学推导 在 SVM 中,我们希望 y i ⋅ f ( x i ) ≥ 1 y_i \cdot f(x_i) \geq 1 y i ⋅ f ( x i ) ≥ 1 (这里 y i ∈ { + 1 , − 1 } y_i \in \{+1, -1\} y i ∈ { + 1 , − 1 } )。
综合上述两种情况,得到:
H i n g e L o s s = max ( 0 , 1 − y i f ( x i ) ) HingeLoss = \max(0, 1 - y_i f(x_i)) H i n g e L o s s = max ( 0 , 1 − y i f ( x i ) )
严谨性注记 :
这个函数在 y i f ( x i ) = 1 y_i f(x_i) = 1 y i f ( x i ) = 1 处是不可导的(转折点),在实际工程中通常使用次梯度(Sub-gradient)或其平滑变体进行优化。
关于目标 1. 期望风险:机器学习的理想目标直观理解
假设你有一台能预知未来的机器,它知道世界上所有可能出现的 X X X (特征)和 Y Y Y (标签)的组合及其出现的概率。期望风险就是这台模型在无穷多 未来预测中产生的“平均损失”。
数学背景
机器学习的目标是找到一个函数 f f f ,使得在联合概率分布 P ( X , Y ) P(X, Y) P ( X , Y ) 下的损失期望达到最小:
R e x p ( f ) = E X Y [ loss ( Y , f ( X ) ) ] = ∫ loss ( y , f ( x ) ) d P ( x , y ) R_{exp}(f) = \mathbb{E}_{XY}[\text{loss}(Y, f(X))] = \int \text{loss}(y, f(x)) dP(x, y) R e x p ( f ) = E X Y [ loss ( Y , f ( X ) ) ] = ∫ loss ( y , f ( x ) ) d P ( x , y )
局限性 :在现实中,联合分布 P ( X , Y ) P(X, Y) P ( X , Y ) 是未知 的,我们无法直接计算这个积分。 2. 经验风险:务实的近似直观理解
既然不知道整体分布,我们只能基于手头已有的 n n n 个“经验数据”(训练集)来评估模型。经验风险就是模型在这 n n n 个已知样本上 的平均损失。
数学背景
利用训练数据集 { ( X ( j ) , Y ( j ) ) } j = 1 n \{(X^{(j)}, Y^{(j)})\}_{j=1}^n { ( X ( j ) , Y ( j ) ) } j = 1 n 计算均值:
R e m p ( f ) = 1 n ∑ j = 1 n loss ( Y ( j ) , f ( X ( j ) ) ) R_{emp}(f) = \frac{1}{n} \sum_{j=1}^n \text{loss}(Y^{(j)}, f(X^{(j)})) R e m p ( f ) = n 1 j = 1 ∑ n loss ( Y ( j ) , f ( X ( j ) ) )
机器学习的实际操作通常是去寻找最小化该值的函数 min f R e m p ( f ) \min_f R_{emp}(f) min f R e m p ( f ) 。
3. 数学连接:为什么可以这样做?这种近似的严谨性建立在大数定律 (Law of Large Numbers) 之上:
当样本量 n → ∞ n \to \infty n → ∞ 时,样本均值(经验风险)以概率 1 1 1 收敛于其数学期望(期望风险):
P ( lim n → ∞ R e m p ( f ) = R e x p ( f ) ) = 1 P\left( \lim_{n \to \infty} R_{emp}(f) = R_{exp}(f) \right) = 1 P ( n → ∞ lim R e m p ( f ) = R e x p ( f ) ) = 1
这意味着:只要数据量足够大,你在训练集上优化的目标函数,在逻辑上是趋近于理想目标的。
4. 经验风险最小化的局限(ERM 的陷阱)虽然数学上收敛,但在实际有限样本(n n n 为常数)的情况下,ERM 存在核心矛盾:
过拟合 (Overfitting) :如果模型 f f f 的复杂度过高,它可能仅仅为了让 R e m p R_{emp} R e m p 趋近于 0 0 0 而记住了噪声,但这并不能保证 R e x p R_{exp} R e x p 同样小。结构风险最小化 (SRM) :为了防止 ERM 失效,通常会在公式后面加上正则化项 (Regularization) λ Ω ( f ) \lambda \Omega(f) λ Ω ( f ) ,从而平衡“经验误差”与“模型复杂度”。f ∗ = arg min f ( 1 n ∑ j = 1 n loss ( Y ( j ) , f ( X ( j ) ) ) + λ Ω ( f ) ) f^* = \arg\min_f \left( \frac{1}{n} \sum_{j=1}^n \text{loss}(Y^{(j)}, f(X^{(j)})) + \lambda \Omega(f) \right) f ∗ = arg f min ( n 1 j = 1 ∑ n loss ( Y ( j ) , f ( X ( j ) ) ) + λ Ω ( f ) )
以下内容估计无法在期中考试前理解,遂先存放于此:
关于正则化与贝叶斯解释 1. 直观理解 几何视角:给不稳定的空间“加点刚度”
在线性代数中,A T A \mathbf{A}^T\mathbf{A} A T A 不可逆意味着特征空间中存在冗余,导致投影方向不唯一。从几何上看,岭回归(Ridge Regression)通过在对角线上加上 λ \lambda λ ,相当于在损失函数的等高线上施加了一个圆形的约束。这迫使解不能无限延伸,从而在损失一点点训练集精度(Bias)的代价下,极大增强了模型在面对扰动时的稳定性(Variance)。
贝叶斯视角:我有“先验”偏见
之前我们默认参数 β \beta β 取任何值概率都一样,但现在我们增加了一个先验假设 :我们认为 β \beta β 不应该太大。引入 β ∼ N ( 0 , τ 2 I ) \beta \sim \mathcal{N}(0, \tau^2 I) β ∼ N ( 0 , τ 2 I ) 意味着我们倾向于让模型权重趋向于 0,除非数据给出了极强的证据证明某项特征非常重要。
2. 严谨数学推导:从贝叶斯到 MAP 我们要证明:对权重施加高斯先验的最大后验估计(MAP),等价于 L2 正则化的最小二乘法。
步骤 1:贝叶斯公式
根据贝叶斯定理,后验概率正比于似然函数与先验概率的乘积:
P ( β ∣ Y , X ) ∝ P ( Y ∣ X , β ) ⋅ P ( β ) P(\beta | Y, X) \propto P(Y | X, \beta) \cdot P(\beta) P ( β ∣ Y , X ) ∝ P ( Y ∣ X , β ) ⋅ P ( β )
步骤 2:定义概率分布
似然函数 P ( Y ∣ X , β ) P(Y | X, \beta) P ( Y ∣ X , β ) :假设噪声服从高斯分布 ϵ ∼ N ( 0 , σ 2 ) \epsilon \sim \mathcal{N}(0, \sigma^2) ϵ ∼ N ( 0 , σ 2 ) ,则样本似然为:
P ( Y ∣ X , β ) ∝ exp ( − 1 2 σ 2 ∑ i = 1 n ( Y i − X i β ) 2 ) P(Y | X, \beta) \propto \exp\left( -\frac{1}{2\sigma^2} \sum_{i=1}^n (Y_i - X_i \beta)^2 \right) P ( Y ∣ X , β ) ∝ exp ( − 2 σ 2 1 i = 1 ∑ n ( Y i − X i β ) 2 )
先验分布 P ( β ) P(\beta) P ( β ) :图片给定 β ∼ N ( 0 , τ 2 I ) \beta \sim \mathcal{N}(0, \tau^2 I) β ∼ N ( 0 , τ 2 I ) ,即:
P ( β ) ∝ exp ( − 1 2 τ 2 ∥ β ∥ 2 2 ) P(\beta) \propto \exp\left( -\frac{1}{2\tau^2} \|\beta\|_2^2 \right) P ( β ) ∝ exp ( − 2 τ 2 1 ∥ β ∥ 2 2 )
步骤 3:取对数并最大化后验 (MAP)
最大化后验概率等价于最小化负对数后验:
− log P ( β ∣ Y , X ) ∝ 1 2 σ 2 ∑ i = 1 n ( Y i − X i β ) 2 + 1 2 τ 2 ∥ β ∥ 2 2 -\log P(\beta | Y, X) \propto \frac{1}{2\sigma^2} \sum_{i=1}^n (Y_i - X_i \beta)^2 + \frac{1}{2\tau^2} \|\beta\|_2^2 − log P ( β ∣ Y , X ) ∝ 2 σ 2 1 i = 1 ∑ n ( Y i − X i β ) 2 + 2 τ 2 1 ∥ β ∥ 2 2
提取系数 1 2 σ 2 \frac{1}{2\sigma^2} 2 σ 2 1 ,令 λ = σ 2 τ 2 \lambda = \frac{\sigma^2}{\tau^2} λ = τ 2 σ 2 ,目标函数变为:
min β ∑ i = 1 n ( Y i − X i β ) 2 + λ ∥ β ∥ 2 2 \min_\beta \sum_{i=1}^n (Y_i - X_i \beta)^2 + \lambda \|\beta\|_2^2 β min i = 1 ∑ n ( Y i − X i β ) 2 + λ ∥ β ∥ 2 2
这正是图片中给出的岭回归目标函数。
3. 闭式解的推导 利用矩阵微积分对目标函数 J ( β ) = ( Y − A β ) T ( Y − A β ) + λ β T β J(\beta) = (\mathbf{Y} - \mathbf{A}\beta)^T(\mathbf{Y} - \mathbf{A}\beta) + \lambda \beta^T \beta J ( β ) = ( Y − A β ) T ( Y − A β ) + λ β T β 求导:
展开梯度 :
∂ J ∂ β = − 2 A T ( Y − A β ) + 2 λ β \frac{\partial J}{\partial \beta} = -2\mathbf{A}^T(\mathbf{Y} - \mathbf{A}\beta) + 2\lambda\beta ∂ β ∂ J = − 2 A T ( Y − A β ) + 2 λ β
令梯度为零 :
A T A β + λ β = A T Y \mathbf{A}^T\mathbf{A}\beta + \lambda\beta = \mathbf{A}^T\mathbf{Y} A T A β + λ β = A T Y
( A T A + λ I ) β = A T Y (\mathbf{A}^T\mathbf{A} + \lambda\mathbf{I})\beta = \mathbf{A}^T\mathbf{Y} ( A T A + λ I ) β = A T Y
求得闭式解 :
β ^ = ( A T A + λ I ) − 1 A T Y \hat{\beta} = (\mathbf{A}^T\mathbf{A} + \lambda\mathbf{I})^{-1}\mathbf{A}^T\mathbf{Y} \text{} β ^ = ( A T A + λ I ) − 1 A T Y
4. 性质深度解析 应对共线性 :A T A \mathbf{A}^T\mathbf{A} A T A 若不满秩,其特征值中会有 0。加上 λ I \lambda \mathbf{I} λ I 后,矩阵的所有特征值至少为 λ > 0 \lambda > 0 λ > 0 ,从而保证了矩阵严格可逆。平滑压缩权重 :L2 范数(∑ β j 2 \sum \beta_j^2 ∑ β j 2 )对大权重的惩罚极重,对小权重的惩罚逐渐变轻,因此它会倾向于让所有权重都变小,但通常不会像 L1(Lasso)那样将其直接压缩到 0。泛化能力 :通过引入 λ \lambda λ (正则化系数),我们在训练集误差和模型复杂度之间做了权衡(Bias-Variance Tradeoff),有效抑制了过拟合。