Representation
视频中围绕线性结构因果模型和因果表征学习,涉及多个核心数学公式的推导,以下结合视频内容详细拆解:
一、线性结构因果模型(SCM)的基础公式
1. 潜在变量的线性表示
视频中定义潜在变量 ( z ) 由线性因果机制生成,形式为:
[ z = A^T z + \Sigma^{1/2} \epsilon ]
-
符号说明:
- ( z \in \mathbb{R}^d ) 是潜在因果变量向量(( d ) 为维度);
- ( A ) 是权重矩阵(下三角矩阵,( A_{ij} \neq 0 ) 表示 ( z_i \to z_j ) 存在因果边);
- ( \Sigma^{1/2} ) 是外生噪声的标准差矩阵(对角线矩阵,控制噪声幅度);
- ( \epsilon \in \mathbb{R}^d ) 是均值为0、协方差为单位矩阵 ( I ) 的噪声向量(( \text{Cov}(\epsilon) = I ))。
-
推导逻辑:
每个潜在变量 ( z_j ) 是其父变量的线性组合(( A^T z ) 项)加噪声(( \Sigma^{1/2} \epsilon ) 项)。通过移项整理为:
[ (I - A^T) z = \Sigma^{1/2} \epsilon ]
由于 ( A ) 是下三角矩阵,( I - A^T ) 可逆,因此:
[ z = (I - A^T)^{-1} \Sigma^{1/2} \epsilon ]
2. 观测变量与潜在变量的映射
观测变量 ( x ) 是潜在变量 ( z ) 的线性投影,公式为:
[ x = G z + \nu ]
- 符号说明:
- ( x \in \mathbb{R}^p ) 是观测变量向量(( p ) 为观测维度,通常 ( p \geq d ));
- ( G \in \mathbb{R}^{p \times d} ) 是混合矩阵(将潜在变量映射到观测空间);
- ( \nu ) 是观测噪声(视频中有时简化为 ( \nu = 0 ),即确定性映射)。
二、协方差矩阵的推导
协方差矩阵是分析变量关系的核心工具,视频中通过潜在变量的表达式推导其协方差:
1. 潜在变量 ( z ) 的协方差
由 ( z = (I - A^T)^{-1} \Sigma^{1/2} \epsilon ),结合 ( \text{Cov}(\epsilon) = I ),可得:
[ \text{Cov}(z) = (I - A^T)^{-1} \Sigma \left( (I - A^T)^{-1} \right)^T ]
- 推导逻辑:
协方差的性质为 ( \text{Cov}(Mz) = M \text{Cov}(z) M^T )(( M ) 为常数矩阵)。此处 ( M = (I - A^T)^{-1} \Sigma^{1/2} ),因此:
[ \text{Cov}(z) = M \cdot \text{Cov}(\epsilon) \cdot M^T = (I - A^T)^{-1} \Sigma^{1/2} \cdot I \cdot \Sigma^{1/2} \left( (I - A^T)^{-1} \right)^T ]
简化后得到上述公式(( \Sigma = (\Sigma^{1/2})^2 ))。
2. 观测变量 ( x ) 的协方差
若忽略观测噪声(( \nu = 0 )),则 ( x = G z ),其协方差为:
[ \text{Cov}(x) = G \cdot \text{Cov}(z) \cdot G^T ]
- 推导逻辑:
同样利用协方差性质,将 ( M = G ) 代入,得到观测变量的协方差与潜在变量协方差的关系。
三、矩阵逆与路径权重的关系
视频中提到,( (I - A)^{-1} ) 矩阵的元素与因果路径权重直接相关,这是分析因果影响的关键:
1. 矩阵逆的路径解释
对于下三角矩阵 ( A ),( (I - A)^{-1} ) 可展开为无穷级数(因 ( A ) 是下三角,高阶项最终为0):
[ (I - A)^{-1} = I + A + A^2 + A^3 + \dots + A^k \quad (\text{当 } k \geq d \text{ 时,} A^k = 0) ]
- 物理意义:
- ( A^k ) 的元素 ( (A^k)_{ij} ) 表示从 ( z_i ) 到 ( z_j ) 的所有长度为 ( k ) 的有向路径的权重之和(路径权重为各边权重的乘积);
- 因此 ( (I - A)^{-1} ) 的元素 ( (I - A)^{-1}_{ij} ) 表示从 ( z_i ) 到 ( z_j ) 的所有可能长度的有向路径的总权重,即总因果影响。
四、干预数据下的矩阵识别
当引入对潜在变量的干预时,视频通过逆协方差矩阵的变化推导干预目标和混合矩阵 ( G ) 的逆(记为 ( H = G^{-1} )):
1. 干预后的逆协方差变化
设观测数据的逆协方差矩阵为 ( \Theta = \text{Cov}(x)^{-1} ),干预后变为 ( \Theta’ ),则:
[ \Theta’ - \Theta = H \cdot \Delta B \cdot H^T ]
-
符号说明:
- ( \Delta B ) 是干预引起的潜在变量逆协方差变化(仅干预目标行/列非零,秩为1);
- ( H = G^{-1} ) 是混合矩阵的逆(将观测变量映射回潜在变量)。
-
推导逻辑:
干预仅改变潜在变量的协方差结构(( \Delta B )),而观测变量的协方差变化由 ( G ) 传递,因此逆协方差的变化可表示为 ( H \cdot \Delta B \cdot H^T )。由于 ( \Delta B ) 秩为1,( \Theta’ - \Theta ) 的行/列空间与 ( H ) 的行空间一致,从而可通过此关系识别 ( H )。
2. 混合矩阵逆 ( H ) 的恢复
通过对 ( \Theta’ - \Theta ) 进行特征分解或投影,可提取 ( H ) 的行向量(仅差一个缩放因子)。例如,若干预目标为第 ( i ) 个潜在变量,则 ( \Theta’ - \Theta ) 的行空间由 ( H ) 的第 ( i ) 行张成,从而可恢复该行使。
五、关键结论总结
- 线性结构因果模型中,潜在变量的协方差由权重矩阵 ( A ) 和噪声方差 ( \Sigma ) 决定,且与因果路径权重直接相关;
- 观测变量的协方差是潜在变量协方差经混合矩阵 ( G ) 映射的结果;
- 引入干预数据后,通过逆协方差矩阵的变化可识别混合矩阵的逆 ( H ),进而恢复潜在变量的因果结构。
这些推导为从高维观测数据中挖掘潜在因果关系提供了数学基础,是因果表征学习的核心工具。
Why ?
在公式 ( z = A^T z + \Sigma^{1/2} \epsilon ) 中,( \Sigma^{1/2} ) 的引入与噪声项的方差规范化直接相关,其核心作用是分离噪声的“缩放效应”与“独立性假设”,让模型更符合因果推断的基本设定。以下从数学原理和因果模型需求两方面详细解释:
- 噪声项的方差与独立性假设 在因果结构模型(SCM)中,外生噪声 ( \epsilon ) 需满足两个关键性质:
- 独立性:不同变量的噪声相互独立(无混淆),即 ( \text{Cov}(\epsilon) = I )(单位矩阵)。这是因果模型中“外生变量无父节点”的数学体现——噪声不能被其他变量(包括其他噪声)解释。
- 方差可控:每个噪声项 ( \epsilon_j ) 可以有不同的方差(反映变量 ( z_j ) 受不可观测因素影响的程度),但需通过一个矩阵统一表示。
- ( \Sigma^{1/2} ) 的数学意义:方差的“分解”与“缩放”
-
( \Sigma ) 的定义:( \Sigma ) 是噪声项 ( \Sigma^{1/2} \epsilon ) 的协方差矩阵。
根据协方差的性质 ( \text{Cov}(M \epsilon) = M \cdot \text{Cov}(\epsilon) \cdot M^T )(( M ) 为常数矩阵),代入 ( M = \Sigma^{1/2} ) 和 ( \text{Cov}(\epsilon) = I ),可得:
[ \text{Cov}(\Sigma^{1/2} \epsilon) = \Sigma^{1/2} \cdot I \cdot (\Sigma^{1/2})^T = \Sigma^{1/2} \cdot \Sigma^{1/2} = \Sigma ]
因此,( \Sigma ) 直接表示了噪声项 ( \Sigma^{1/2} \epsilon ) 的协方差矩阵,其对角元素 ( \Sigma_{jj} ) 就是第 ( j ) 个噪声项的方差。 -
( \Sigma^{1/2} ) 的作用:
它是 ( \Sigma ) 的“平方根矩阵”(通常取对称平方根),用于将单位方差的噪声 ( \epsilon ) 缩放为指定方差的噪声 ( \Sigma^{1/2} \epsilon )。
例如,若 ( \Sigma ) 是对角矩阵 ( \text{diag}(\sigma_1^2, \sigma_2^2, …, \sigma_d^2) ),则 ( \Sigma^{1/2} = \text{diag}(\sigma_1, \sigma_2, …, \sigma_d) ),此时:
[ \Sigma^{1/2} \epsilon = (\sigma_1 \epsilon_1, \sigma_2 \epsilon_2, …, \sigma_d \epsilon_d)^T ]
每个噪声项的方差被缩放为 ( \sigma_j^2 ),同时保持了 ( \epsilon ) 的独立性(因 ( \Sigma^{1/2} ) 是对角矩阵,不引入交叉项)。
- 为什么不直接用 ( \epsilon ) 而要引入 ( \Sigma^{1/2} )
-
分离“结构”与“缩放”:
公式 ( z = A^T z + \Sigma^{1/2} \epsilon ) 中,( A^T ) 刻画了变量间的因果结构(父节点对子女的影响权重),而 ( \Sigma^{1/2} ) 单独控制噪声的方差大小。这种分离让模型更灵活——可以在不改变因果结构(( A ) 不变)的情况下,调整噪声的影响程度(( \Sigma ) 变化)。 -
符合因果推断的可识别性需求:
在后续的协方差矩阵推导(如 ( \text{Cov}(z) ) 的计算)中,( \Sigma^{1/2} ) 的引入能让噪声方差清晰地体现在结果中,避免与因果结构参数 ( A ) 混淆。例如,潜在变量 ( z ) 的协方差公式:
[ \text{Cov}(z) = (I - A^T)^{-1} \Sigma \left( (I - A^T)^{-1} \right)^T ]
其中 ( \Sigma ) 直接对应噪声的总方差,这为从观测数据反推因果结构(( A ))提供了可识别的数学条件。