Representation Learning

约 2007 个字预计阅读时间 10 分钟

视频中围绕线性结构因果模型和因果表征学习，涉及多个核心数学公式的推导，以下结合视频内容详细拆解：

一、线性结构因果模型（SCM）的基础公式¶

1. 潜在变量的线性表示¶

视频中定义潜在变量 \( z \) 由线性因果机制生成，形式为：
[ z = A^T z + \Sigma^{½} \epsilon ]
- 符号说明：
- \( z \in \mathbb{R}^d \) 是潜在因果变量向量（\( d \) 为维度）；
- \( A \) 是权重矩阵（下三角矩阵，\( A_{ij} \neq 0 \) 表示 \( z_i \to z_j \) 存在因果边）；
- \( \Sigma^{1/2} \) 是外生噪声的标准差矩阵（对角线矩阵，控制噪声幅度）；
- \( \epsilon \in \mathbb{R}^d \) 是均值为0、协方差为单位矩阵 \( I \) 的噪声向量（\( \text{Cov}(\epsilon) = I \)）。

推导逻辑：
每个潜在变量 \( z_j \) 是其父变量的线性组合（\( A^T z \) 项）加噪声（\( \Sigma^{1/2} \epsilon \) 项）。通过移项整理为：
[ (I - A^T) z = \Sigma^{½} \epsilon ]
由于 \( A \) 是下三角矩阵，\( I - A^T \) 可逆，因此：
[ z = (I - A^T) \epsilon ] } \Sigma^{½

2. 观测变量与潜在变量的映射¶

观测变量 \( x \) 是潜在变量 \( z \) 的线性投影，公式为：
[ x = G z + \nu ]
- 符号说明：
- \( x \in \mathbb{R}^p \) 是观测变量向量（\( p \) 为观测维度，通常 \( p \geq d \)）；
- \( G \in \mathbb{R}^{p \times d} \) 是混合矩阵（将潜在变量映射到观测空间）；
- \( \nu \) 是观测噪声（视频中有时简化为 \( \nu = 0 \)，即确定性映射）。

二、协方差矩阵的推导¶

协方差矩阵是分析变量关系的核心工具，视频中通过潜在变量的表达式推导其协方差：

1. 潜在变量 \( z \) 的协方差¶

由 \( z = (I - A^T)^{-1} \Sigma^{1/2} \epsilon \)，结合 \( \text{Cov}(\epsilon) = I \)，可得：
[ \text{Cov}(z) = (I - A^T) \Sigma \left( (I - A^T) \right)^T ]
- 推导逻辑：
协方差的性质为 \( \text{Cov}(Mz) = M \text{Cov}(z) M^T \)（\( M \) 为常数矩阵）。此处 \( M = (I - A^T)^{-1} \Sigma^{1/2} \)，因此：
[ \text{Cov}(z) = M \cdot \text{Cov}(\epsilon) \cdot M^T = (I - A^T) \left( (I - A} \Sigma^{½} \cdot I \cdot \Sigma^{½^T) \right)^T ]
简化后得到上述公式（\( \Sigma = (\Sigma^{1/2})^2 \)）。

2. 观测变量 \( x \) 的协方差¶

若忽略观测噪声（\( \nu = 0 \)），则 \( x = G z \)，其协方差为：
[ \text{Cov}(x) = G \cdot \text{Cov}(z) \cdot G^T ]
- 推导逻辑：
同样利用协方差性质，将 \( M = G \) 代入，得到观测变量的协方差与潜在变量协方差的关系。

三、矩阵逆与路径权重的关系¶

视频中提到，\( (I - A)^{-1} \) 矩阵的元素与因果路径权重直接相关，这是分析因果影响的关键：

1. 矩阵逆的路径解释¶

对于下三角矩阵 \( A \)，\( (I - A)^{-1} \) 可展开为无穷级数（因 \( A \) 是下三角，高阶项最终为0）：
[ (I - A)^{-1} = I + A + A^2 + A^3 + \dots + A^k \quad (\text{当 } k \geq d \text{ 时，} A^k = 0) ]
- 物理意义：
- \( A^k \) 的元素 \( (A^k)_{ij} \) 表示从 \( z_i \) 到 \( z_j \) 的所有长度为 \( k \) 的有向路径的权重之和（路径权重为各边权重的乘积）；
- 因此 \( (I - A)^{-1} \) 的元素 \( (I - A)^{-1}_{ij} \) 表示从 \( z_i \) 到 \( z_j \) 的所有可能长度的有向路径的总权重，即总因果影响。

四、干预数据下的矩阵识别¶

当引入对潜在变量的干预时，视频通过逆协方差矩阵的变化推导干预目标和混合矩阵 \( G \) 的逆（记为 \( H = G^{-1} \)）：

1. 干预后的逆协方差变化¶

设观测数据的逆协方差矩阵为 \( \Theta = \text{Cov}(x)^{-1} \)，干预后变为 \( \Theta' \)，则：
[ \Theta' - \Theta = H \cdot \Delta B \cdot H^T ]
- 符号说明：
- \( \Delta B \) 是干预引起的潜在变量逆协方差变化（仅干预目标行/列非零，秩为1）；
- \( H = G^{-1} \) 是混合矩阵的逆（将观测变量映射回潜在变量）。

推导逻辑：
干预仅改变潜在变量的协方差结构（\( \Delta B \)），而观测变量的协方差变化由 \( G \) 传递，因此逆协方差的变化可表示为 \( H \cdot \Delta B \cdot H^T \)。由于 \( \Delta B \) 秩为1，\( \Theta' - \Theta \) 的行/列空间与 \( H \) 的行空间一致，从而可通过此关系识别 \( H \)。

2. 混合矩阵逆 \( H \) 的恢复¶

通过对 \( \Theta' - \Theta \) 进行特征分解或投影，可提取 \( H \) 的行向量（仅差一个缩放因子）。例如，若干预目标为第 \( i \) 个潜在变量，则 \( \Theta' - \Theta \) 的行空间由 \( H \) 的第 \( i \) 行张成，从而可恢复该行使。

五、关键结论总结¶

线性结构因果模型中，潜在变量的协方差由权重矩阵 \( A \) 和噪声方差 \( \Sigma \) 决定，且与因果路径权重直接相关；
观测变量的协方差是潜在变量协方差经混合矩阵 \( G \) 映射的结果；
引入干预数据后，通过逆协方差矩阵的变化可识别混合矩阵的逆 \( H \)，进而恢复潜在变量的因果结构。

这些推导为从高维观测数据中挖掘潜在因果关系提供了数学基础，是因果表征学习的核心工具。

Why \(\sum^{\frac{1}{2}}\) ?¶

在公式 \( z = A^T z + \Sigma^{1/2} \epsilon \) 中，\( \Sigma^{1/2} \) 的引入与噪声项的方差规范化直接相关，其核心作用是分离噪声的“缩放效应”与“独立性假设”，让模型更符合因果推断的基本设定。以下从数学原理和因果模型需求两方面详细解释：

噪声项的方差与独立性假设
在因果结构模型（SCM）中，外生噪声 \( \epsilon \) 需满足两个关键性质：
- 独立性：不同变量的噪声相互独立（无混淆），即 \( \text{Cov}(\epsilon) = I \)（单位矩阵）。这是因果模型中“外生变量无父节点”的数学体现——噪声不能被其他变量（包括其他噪声）解释。
- 方差可控：每个噪声项 \( \epsilon_j \) 可以有不同的方差（反映变量 \( z_j \) 受不可观测因素影响的程度），但需通过一个矩阵统一表示。
\( \Sigma^{1/2} \) 的数学意义：方差的“分解”与“缩放”
- \( \Sigma \) 的定义：\( \Sigma \) 是噪声项 \( \Sigma^{1/2} \epsilon \) 的协方差矩阵。
根据协方差的性质 \( \text{Cov}(M \epsilon) = M \cdot \text{Cov}(\epsilon) \cdot M^T \)（\( M \) 为常数矩阵），代入 \( M = \Sigma^{1/2} \) 和 \( \text{Cov}(\epsilon) = I \)，可得：
[
\text{Cov}(\Sigma^{½} \epsilon) = \Sigma^{½} \cdot I \cdot (\Sigma^{½})T = \Sigma^{½} \cdot \Sigma^{½} = \Sigma
]
因此，\( \Sigma \) 直接表示了噪声项 \( \Sigma^{1/2} \epsilon \) 的协方差矩阵，其对角元素 \( \Sigma_{jj} \) 就是第 \( j \) 个噪声项的方差。

\( \Sigma^{1/2} \) 的作用：
它是 \( \Sigma \) 的“平方根矩阵”（通常取对称平方根），用于将单位方差的噪声 \( \epsilon \) 缩放为指定方差的噪声 \( \Sigma^{1/2} \epsilon \)。
例如，若 \( \Sigma \) 是对角矩阵 \( \text{diag}(\sigma_1^2, \sigma_2^2, ..., \sigma_d^2) \)，则 \( \Sigma^{1/2} = \text{diag}(\sigma_1, \sigma_2, ..., \sigma_d) \)，此时：
[
\Sigma^{½} \epsilon = (\sigma_1 \epsilon_1, \sigma_2 \epsilon_2, ..., \sigma_d \epsilon_d)^T
]
每个噪声项的方差被缩放为 \( \sigma_j^2 \)，同时保持了 \( \epsilon \) 的独立性（因 \( \Sigma^{1/2} \) 是对角矩阵，不引入交叉项）。

为什么不直接用 \( \epsilon \) 而要引入 \( \Sigma^{1/2} \)
- 分离“结构”与“缩放”：
公式 \( z = A^T z + \Sigma^{1/2} \epsilon \) 中，\( A^T \) 刻画了变量间的因果结构（父节点对子女的影响权重），而 \( \Sigma^{1/2} \) 单独控制噪声的方差大小。这种分离让模型更灵活——可以在不改变因果结构（\( A \) 不变）的情况下，调整噪声的影响程度（\( \Sigma \) 变化）。

符合因果推断的可识别性需求：
在后续的协方差矩阵推导（如 \( \text{Cov}(z) \) 的计算）中，\( \Sigma^{1/2} \) 的引入能让噪声方差清晰地体现在结果中，避免与因果结构参数 \( A \) 混淆。例如，潜在变量 \( z \) 的协方差公式：
[
\text{Cov}(z) = (I - A^T) \Sigma \left( (I - A^T) \right)^T
]
其中 \( \Sigma \) 直接对应噪声的总方差，这为从观测数据反推因果结构（\( A \)）提供了可识别的数学条件。