Representation Learning
约 2007 个字 预计阅读时间 10 分钟
视频中围绕线性结构因果模型和因果表征学习,涉及多个核心数学公式的推导,以下结合视频内容详细拆解:
一、线性结构因果模型(SCM)的基础公式¶
1. 潜在变量的线性表示¶
视频中定义潜在变量 \( z \) 由线性因果机制生成,形式为:
[ z = A^T z + \Sigma^{½} \epsilon ]
- 符号说明:
- \( z \in \mathbb{R}^d \) 是潜在因果变量向量(\( d \) 为维度);
- \( A \) 是权重矩阵(下三角矩阵,\( A_{ij} \neq 0 \) 表示 \( z_i \to z_j \) 存在因果边);
- \( \Sigma^{1/2} \) 是外生噪声的标准差矩阵(对角线矩阵,控制噪声幅度);
- \( \epsilon \in \mathbb{R}^d \) 是均值为0、协方差为单位矩阵 \( I \) 的噪声向量(\( \text{Cov}(\epsilon) = I \))。
- 推导逻辑:
每个潜在变量 \( z_j \) 是其父变量的线性组合(\( A^T z \) 项)加噪声(\( \Sigma^{1/2} \epsilon \) 项)。通过移项整理为:
[ (I - A^T) z = \Sigma^{½} \epsilon ]
由于 \( A \) 是下三角矩阵,\( I - A^T \) 可逆,因此:
[ z = (I - AT) \epsilon ] } \Sigma^{½
2. 观测变量与潜在变量的映射¶
观测变量 \( x \) 是潜在变量 \( z \) 的线性投影,公式为:
[ x = G z + \nu ]
- 符号说明:
- \( x \in \mathbb{R}^p \) 是观测变量向量(\( p \) 为观测维度,通常 \( p \geq d \));
- \( G \in \mathbb{R}^{p \times d} \) 是混合矩阵(将潜在变量映射到观测空间);
- \( \nu \) 是观测噪声(视频中有时简化为 \( \nu = 0 \),即确定性映射)。
二、协方差矩阵的推导¶
协方差矩阵是分析变量关系的核心工具,视频中通过潜在变量的表达式推导其协方差:
1. 潜在变量 \( z \) 的协方差¶
由 \( z = (I - A^T)^{-1} \Sigma^{1/2} \epsilon \),结合 \( \text{Cov}(\epsilon) = I \),可得:
[ \text{Cov}(z) = (I - AT) \Sigma \left( (I - AT) \right)^T ]
- 推导逻辑:
协方差的性质为 \( \text{Cov}(Mz) = M \text{Cov}(z) M^T \)(\( M \) 为常数矩阵)。此处 \( M = (I - A^T)^{-1} \Sigma^{1/2} \),因此:
[ \text{Cov}(z) = M \cdot \text{Cov}(\epsilon) \cdot M^T = (I - AT) \left( (I - A} \Sigma^{½} \cdot I \cdot \Sigma^{½T) \right)^T ]
简化后得到上述公式(\( \Sigma = (\Sigma^{1/2})^2 \))。
2. 观测变量 \( x \) 的协方差¶
若忽略观测噪声(\( \nu = 0 \)),则 \( x = G z \),其协方差为:
[ \text{Cov}(x) = G \cdot \text{Cov}(z) \cdot G^T ]
- 推导逻辑:
同样利用协方差性质,将 \( M = G \) 代入,得到观测变量的协方差与潜在变量协方差的关系。
三、矩阵逆与路径权重的关系¶
视频中提到,\( (I - A)^{-1} \) 矩阵的元素与因果路径权重直接相关,这是分析因果影响的关键:
1. 矩阵逆的路径解释¶
对于下三角矩阵 \( A \),\( (I - A)^{-1} \) 可展开为无穷级数(因 \( A \) 是下三角,高阶项最终为0):
[ (I - A)^{-1} = I + A + A^2 + A^3 + \dots + A^k \quad (\text{当 } k \geq d \text{ 时,} A^k = 0) ]
- 物理意义:
- \( A^k \) 的元素 \( (A^k)_{ij} \) 表示从 \( z_i \) 到 \( z_j \) 的所有长度为 \( k \) 的有向路径的权重之和(路径权重为各边权重的乘积);
- 因此 \( (I - A)^{-1} \) 的元素 \( (I - A)^{-1}_{ij} \) 表示从 \( z_i \) 到 \( z_j \) 的所有可能长度的有向路径的总权重,即总因果影响。
四、干预数据下的矩阵识别¶
当引入对潜在变量的干预时,视频通过逆协方差矩阵的变化推导干预目标和混合矩阵 \( G \) 的逆(记为 \( H = G^{-1} \)):
1. 干预后的逆协方差变化¶
设观测数据的逆协方差矩阵为 \( \Theta = \text{Cov}(x)^{-1} \),干预后变为 \( \Theta' \),则:
[ \Theta' - \Theta = H \cdot \Delta B \cdot H^T ]
- 符号说明:
- \( \Delta B \) 是干预引起的潜在变量逆协方差变化(仅干预目标行/列非零,秩为1);
- \( H = G^{-1} \) 是混合矩阵的逆(将观测变量映射回潜在变量)。
- 推导逻辑:
干预仅改变潜在变量的协方差结构(\( \Delta B \)),而观测变量的协方差变化由 \( G \) 传递,因此逆协方差的变化可表示为 \( H \cdot \Delta B \cdot H^T \)。由于 \( \Delta B \) 秩为1,\( \Theta' - \Theta \) 的行/列空间与 \( H \) 的行空间一致,从而可通过此关系识别 \( H \)。
2. 混合矩阵逆 \( H \) 的恢复¶
通过对 \( \Theta' - \Theta \) 进行特征分解或投影,可提取 \( H \) 的行向量(仅差一个缩放因子)。例如,若干预目标为第 \( i \) 个潜在变量,则 \( \Theta' - \Theta \) 的行空间由 \( H \) 的第 \( i \) 行张成,从而可恢复该行使。
五、关键结论总结¶
- 线性结构因果模型中,潜在变量的协方差由权重矩阵 \( A \) 和噪声方差 \( \Sigma \) 决定,且与因果路径权重直接相关;
- 观测变量的协方差是潜在变量协方差经混合矩阵 \( G \) 映射的结果;
- 引入干预数据后,通过逆协方差矩阵的变化可识别混合矩阵的逆 \( H \),进而恢复潜在变量的因果结构。
这些推导为从高维观测数据中挖掘潜在因果关系提供了数学基础,是因果表征学习的核心工具。
Why \(\sum^{\frac{1}{2}}\) ?¶
在公式 \( z = A^T z + \Sigma^{1/2} \epsilon \) 中,\( \Sigma^{1/2} \) 的引入与噪声项的方差规范化直接相关,其核心作用是分离噪声的“缩放效应”与“独立性假设”,让模型更符合因果推断的基本设定。以下从数学原理和因果模型需求两方面详细解释:
-
噪声项的方差与独立性假设
在因果结构模型(SCM)中,外生噪声 \( \epsilon \) 需满足两个关键性质:
- 独立性:不同变量的噪声相互独立(无混淆),即 \( \text{Cov}(\epsilon) = I \)(单位矩阵)。这是因果模型中“外生变量无父节点”的数学体现——噪声不能被其他变量(包括其他噪声)解释。
- 方差可控:每个噪声项 \( \epsilon_j \) 可以有不同的方差(反映变量 \( z_j \) 受不可观测因素影响的程度),但需通过一个矩阵统一表示。 -
\( \Sigma^{1/2} \) 的数学意义:方差的“分解”与“缩放”
- \( \Sigma \) 的定义:\( \Sigma \) 是噪声项 \( \Sigma^{1/2} \epsilon \) 的协方差矩阵。
根据协方差的性质 \( \text{Cov}(M \epsilon) = M \cdot \text{Cov}(\epsilon) \cdot M^T \)(\( M \) 为常数矩阵),代入 \( M = \Sigma^{1/2} \) 和 \( \text{Cov}(\epsilon) = I \),可得:
[
\text{Cov}(\Sigma^{½} \epsilon) = \Sigma^{½} \cdot I \cdot (\Sigma{½})T = \Sigma^{½} \cdot \Sigma^{½} = \Sigma
]
因此,\( \Sigma \) 直接表示了噪声项 \( \Sigma^{1/2} \epsilon \) 的协方差矩阵,其对角元素 \( \Sigma_{jj} \) 就是第 \( j \) 个噪声项的方差。
- \( \Sigma^{1/2} \) 的作用:
它是 \( \Sigma \) 的“平方根矩阵”(通常取对称平方根),用于将单位方差的噪声 \( \epsilon \) 缩放为指定方差的噪声 \( \Sigma^{1/2} \epsilon \)。
例如,若 \( \Sigma \) 是对角矩阵 \( \text{diag}(\sigma_1^2, \sigma_2^2, ..., \sigma_d^2) \),则 \( \Sigma^{1/2} = \text{diag}(\sigma_1, \sigma_2, ..., \sigma_d) \),此时:
[
\Sigma^{½} \epsilon = (\sigma_1 \epsilon_1, \sigma_2 \epsilon_2, ..., \sigma_d \epsilon_d)^T
]
每个噪声项的方差被缩放为 \( \sigma_j^2 \),同时保持了 \( \epsilon \) 的独立性(因 \( \Sigma^{1/2} \) 是对角矩阵,不引入交叉项)。
- 为什么不直接用 \( \epsilon \) 而要引入 \( \Sigma^{1/2} \)
- 分离“结构”与“缩放”:
公式 \( z = A^T z + \Sigma^{1/2} \epsilon \) 中,\( A^T \) 刻画了变量间的因果结构(父节点对子女的影响权重),而 \( \Sigma^{1/2} \) 单独控制噪声的方差大小。这种分离让模型更灵活——可以在不改变因果结构(\( A \) 不变)的情况下,调整噪声的影响程度(\( \Sigma \) 变化)。
- 符合因果推断的可识别性需求:
在后续的协方差矩阵推导(如 \( \text{Cov}(z) \) 的计算)中,\( \Sigma^{1/2} \) 的引入能让噪声方差清晰地体现在结果中,避免与因果结构参数 \( A \) 混淆。例如,潜在变量 \( z \) 的协方差公式:
[
\text{Cov}(z) = (I - AT) \Sigma \left( (I - AT) \right)^T
]
其中 \( \Sigma \) 直接对应噪声的总方差,这为从观测数据反推因果结构(\( A \))提供了可识别的数学条件。