Skip to content

Representation Learning

约 2007 个字 预计阅读时间 10 分钟

视频中围绕线性结构因果模型和因果表征学习,涉及多个核心数学公式的推导,以下结合视频内容详细拆解:

一、线性结构因果模型(SCM)的基础公式

1. 潜在变量的线性表示

视频中定义潜在变量 \( z \) 由线性因果机制生成,形式为:
[ z = A^T z + \Sigma^{½} \epsilon ]
- 符号说明
- \( z \in \mathbb{R}^d \) 是潜在因果变量向量(\( d \) 为维度);
- \( A \) 是权重矩阵(下三角矩阵,\( A_{ij} \neq 0 \) 表示 \( z_i \to z_j \) 存在因果边);
- \( \Sigma^{1/2} \) 是外生噪声的标准差矩阵(对角线矩阵,控制噪声幅度);
- \( \epsilon \in \mathbb{R}^d \) 是均值为0、协方差为单位矩阵 \( I \) 的噪声向量(\( \text{Cov}(\epsilon) = I \))。

  • 推导逻辑
    每个潜在变量 \( z_j \) 是其父变量的线性组合(\( A^T z \) 项)加噪声(\( \Sigma^{1/2} \epsilon \) 项)。通过移项整理为:
    [ (I - A^T) z = \Sigma^{½} \epsilon ]
    由于 \( A \) 是下三角矩阵,\( I - A^T \) 可逆,因此:
    [ z = (I - AT) \epsilon ] } \Sigma^{½

2. 观测变量与潜在变量的映射

观测变量 \( x \) 是潜在变量 \( z \) 的线性投影,公式为:
[ x = G z + \nu ]
- 符号说明
- \( x \in \mathbb{R}^p \) 是观测变量向量(\( p \) 为观测维度,通常 \( p \geq d \));
- \( G \in \mathbb{R}^{p \times d} \) 是混合矩阵(将潜在变量映射到观测空间);
- \( \nu \) 是观测噪声(视频中有时简化为 \( \nu = 0 \),即确定性映射)。

二、协方差矩阵的推导

协方差矩阵是分析变量关系的核心工具,视频中通过潜在变量的表达式推导其协方差:

1. 潜在变量 \( z \) 的协方差

\( z = (I - A^T)^{-1} \Sigma^{1/2} \epsilon \),结合 \( \text{Cov}(\epsilon) = I \),可得:
[ \text{Cov}(z) = (I - AT) \Sigma \left( (I - AT) \right)^T ]
- 推导逻辑
协方差的性质为 \( \text{Cov}(Mz) = M \text{Cov}(z) M^T \)\( M \) 为常数矩阵)。此处 \( M = (I - A^T)^{-1} \Sigma^{1/2} \),因此:
[ \text{Cov}(z) = M \cdot \text{Cov}(\epsilon) \cdot M^T = (I - AT) \left( (I - A} \Sigma^{½} \cdot I \cdot \Sigma^{½T) \right)^T ]
简化后得到上述公式(\( \Sigma = (\Sigma^{1/2})^2 \))。

2. 观测变量 \( x \) 的协方差

若忽略观测噪声(\( \nu = 0 \)),则 \( x = G z \),其协方差为:
[ \text{Cov}(x) = G \cdot \text{Cov}(z) \cdot G^T ]
- 推导逻辑
同样利用协方差性质,将 \( M = G \) 代入,得到观测变量的协方差与潜在变量协方差的关系。

三、矩阵逆与路径权重的关系

视频中提到,\( (I - A)^{-1} \) 矩阵的元素与因果路径权重直接相关,这是分析因果影响的关键:

1. 矩阵逆的路径解释

对于下三角矩阵 \( A \)\( (I - A)^{-1} \) 可展开为无穷级数(因 \( A \) 是下三角,高阶项最终为0):
[ (I - A)^{-1} = I + A + A^2 + A^3 + \dots + A^k \quad (\text{当 } k \geq d \text{ 时,} A^k = 0) ]
- 物理意义
- \( A^k \) 的元素 \( (A^k)_{ij} \) 表示从 \( z_i \)\( z_j \) 的所有长度为 \( k \) 的有向路径的权重之和(路径权重为各边权重的乘积);
- 因此 \( (I - A)^{-1} \) 的元素 \( (I - A)^{-1}_{ij} \) 表示从 \( z_i \)\( z_j \)所有可能长度的有向路径的总权重,即总因果影响。

四、干预数据下的矩阵识别

当引入对潜在变量的干预时,视频通过逆协方差矩阵的变化推导干预目标和混合矩阵 \( G \) 的逆(记为 \( H = G^{-1} \)):

1. 干预后的逆协方差变化

设观测数据的逆协方差矩阵为 \( \Theta = \text{Cov}(x)^{-1} \),干预后变为 \( \Theta' \),则:
[ \Theta' - \Theta = H \cdot \Delta B \cdot H^T ]
- 符号说明
- \( \Delta B \) 是干预引起的潜在变量逆协方差变化(仅干预目标行/列非零,秩为1);
- \( H = G^{-1} \) 是混合矩阵的逆(将观测变量映射回潜在变量)。

  • 推导逻辑
    干预仅改变潜在变量的协方差结构(\( \Delta B \)),而观测变量的协方差变化由 \( G \) 传递,因此逆协方差的变化可表示为 \( H \cdot \Delta B \cdot H^T \)。由于 \( \Delta B \) 秩为1,\( \Theta' - \Theta \) 的行/列空间与 \( H \) 的行空间一致,从而可通过此关系识别 \( H \)

2. 混合矩阵逆 \( H \) 的恢复

通过对 \( \Theta' - \Theta \) 进行特征分解或投影,可提取 \( H \) 的行向量(仅差一个缩放因子)。例如,若干预目标为第 \( i \) 个潜在变量,则 \( \Theta' - \Theta \) 的行空间由 \( H \) 的第 \( i \) 行张成,从而可恢复该行使。

五、关键结论总结

  1. 线性结构因果模型中,潜在变量的协方差由权重矩阵 \( A \) 和噪声方差 \( \Sigma \) 决定,且与因果路径权重直接相关;
  2. 观测变量的协方差是潜在变量协方差经混合矩阵 \( G \) 映射的结果;
  3. 引入干预数据后,通过逆协方差矩阵的变化可识别混合矩阵的逆 \( H \),进而恢复潜在变量的因果结构。

这些推导为从高维观测数据中挖掘潜在因果关系提供了数学基础,是因果表征学习的核心工具。

Why \(\sum^{\frac{1}{2}}\) ?

在公式 \( z = A^T z + \Sigma^{1/2} \epsilon \) 中,\( \Sigma^{1/2} \) 的引入与噪声项的方差规范化直接相关,其核心作用是分离噪声的“缩放效应”与“独立性假设”,让模型更符合因果推断的基本设定。以下从数学原理和因果模型需求两方面详细解释:

  1. 噪声项的方差与独立性假设
    在因果结构模型(SCM)中,外生噪声 \( \epsilon \) 需满足两个关键性质:
    - 独立性:不同变量的噪声相互独立(无混淆),即 \( \text{Cov}(\epsilon) = I \)(单位矩阵)。这是因果模型中“外生变量无父节点”的数学体现——噪声不能被其他变量(包括其他噪声)解释。
    - 方差可控:每个噪声项 \( \epsilon_j \) 可以有不同的方差(反映变量 \( z_j \) 受不可观测因素影响的程度),但需通过一个矩阵统一表示。

  2. \( \Sigma^{1/2} \) 的数学意义:方差的“分解”与“缩放”
    - \( \Sigma \) 的定义\( \Sigma \) 是噪声项 \( \Sigma^{1/2} \epsilon \) 的协方差矩阵。
    根据协方差的性质 \( \text{Cov}(M \epsilon) = M \cdot \text{Cov}(\epsilon) \cdot M^T \)\( M \) 为常数矩阵),代入 \( M = \Sigma^{1/2} \)\( \text{Cov}(\epsilon) = I \),可得:
    [
    \text{Cov}(\Sigma^{½} \epsilon) = \Sigma^{½} \cdot I \cdot (\Sigma{½})T = \Sigma^{½} \cdot \Sigma^{½} = \Sigma
    ]
    因此,\( \Sigma \) 直接表示了噪声项 \( \Sigma^{1/2} \epsilon \) 的协方差矩阵,其对角元素 \( \Sigma_{jj} \) 就是第 \( j \) 个噪声项的方差。

  • \( \Sigma^{1/2} \) 的作用
    它是 \( \Sigma \) 的“平方根矩阵”(通常取对称平方根),用于将单位方差的噪声 \( \epsilon \) 缩放为指定方差的噪声 \( \Sigma^{1/2} \epsilon \)
    例如,若 \( \Sigma \) 是对角矩阵 \( \text{diag}(\sigma_1^2, \sigma_2^2, ..., \sigma_d^2) \),则 \( \Sigma^{1/2} = \text{diag}(\sigma_1, \sigma_2, ..., \sigma_d) \),此时:
    [
    \Sigma^{½} \epsilon = (\sigma_1 \epsilon_1, \sigma_2 \epsilon_2, ..., \sigma_d \epsilon_d)^T
    ]
    每个噪声项的方差被缩放为 \( \sigma_j^2 \),同时保持了 \( \epsilon \) 的独立性(因 \( \Sigma^{1/2} \) 是对角矩阵,不引入交叉项)。
  1. 为什么不直接用 \( \epsilon \) 而要引入 \( \Sigma^{1/2} \)
    - 分离“结构”与“缩放”
    公式 \( z = A^T z + \Sigma^{1/2} \epsilon \) 中,\( A^T \) 刻画了变量间的因果结构(父节点对子女的影响权重),而 \( \Sigma^{1/2} \) 单独控制噪声的方差大小。这种分离让模型更灵活——可以在不改变因果结构(\( A \) 不变)的情况下,调整噪声的影响程度(\( \Sigma \) 变化)。
  • 符合因果推断的可识别性需求
    在后续的协方差矩阵推导(如 \( \text{Cov}(z) \) 的计算)中,\( \Sigma^{1/2} \) 的引入能让噪声方差清晰地体现在结果中,避免与因果结构参数 \( A \) 混淆。例如,潜在变量 \( z \) 的协方差公式:
    [
    \text{Cov}(z) = (I - AT) \Sigma \left( (I - AT) \right)^T
    ]
    其中 \( \Sigma \) 直接对应噪声的总方差,这为从观测数据反推因果结构(\( A \))提供了可识别的数学条件。