Representation

视频中围绕线性结构因果模型和因果表征学习，涉及多个核心数学公式的推导，以下结合视频内容详细拆解：

一、线性结构因果模型（SCM）的基础公式

1. 潜在变量的线性表示

视频中定义潜在变量 ( z ) 由线性因果机制生成，形式为：
[ z = A^T z + \Sigma^{1/2} \epsilon ]

符号说明：
- ( z \in \mathbb{R}^d ) 是潜在因果变量向量（( d ) 为维度）；
- ( A ) 是权重矩阵（下三角矩阵，( A_{ij} \neq 0 ) 表示 ( z_i \to z_j ) 存在因果边）；
- ( \Sigma^{1/2} ) 是外生噪声的标准差矩阵（对角线矩阵，控制噪声幅度）；
- ( \epsilon \in \mathbb{R}^d ) 是均值为0、协方差为单位矩阵 ( I ) 的噪声向量（( \text{Cov}(\epsilon) = I )）。
推导逻辑：
每个潜在变量 ( z_j ) 是其父变量的线性组合（( A^T z ) 项）加噪声（( \Sigma^{1/2} \epsilon ) 项）。通过移项整理为：
[ (I - A^T) z = \Sigma^{1/2} \epsilon ]
由于 ( A ) 是下三角矩阵，( I - A^T ) 可逆，因此：
[ z = (I - A^T)^{-1} \Sigma^{1/2} \epsilon ]

2. 观测变量与潜在变量的映射

观测变量 ( x ) 是潜在变量 ( z ) 的线性投影，公式为：
[ x = G z + \nu ]

符号说明：
- ( x \in \mathbb{R}^p ) 是观测变量向量（( p ) 为观测维度，通常 ( p \geq d )）；
- ( G \in \mathbb{R}^{p \times d} ) 是混合矩阵（将潜在变量映射到观测空间）；
- ( \nu ) 是观测噪声（视频中有时简化为 ( \nu = 0 )，即确定性映射）。

二、协方差矩阵的推导

协方差矩阵是分析变量关系的核心工具，视频中通过潜在变量的表达式推导其协方差：

1. 潜在变量 ( z ) 的协方差

由 ( z = (I - A^T)^{-1} \Sigma^{1/2} \epsilon )，结合 ( \text{Cov}(\epsilon) = I )，可得：
[ \text{Cov}(z) = (I - A^T)^{-1} \Sigma \left( (I - A^T)^{-1} \right)^T ]

推导逻辑：
协方差的性质为 ( \text{Cov}(Mz) = M \text{Cov}(z) M^T )（( M ) 为常数矩阵）。此处 ( M = (I - A^T)^{-1} \Sigma^{1/2} )，因此：
[ \text{Cov}(z) = M \cdot \text{Cov}(\epsilon) \cdot M^T = (I - A^T)^{-1} \Sigma^{1/2} \cdot I \cdot \Sigma^{1/2} \left( (I - A^T)^{-1} \right)^T ]
简化后得到上述公式（( \Sigma = (\Sigma^{1/2})^2 )）。

2. 观测变量 ( x ) 的协方差

若忽略观测噪声（( \nu = 0 )），则 ( x = G z )，其协方差为：
[ \text{Cov}(x) = G \cdot \text{Cov}(z) \cdot G^T ]

推导逻辑：
同样利用协方差性质，将 ( M = G ) 代入，得到观测变量的协方差与潜在变量协方差的关系。

三、矩阵逆与路径权重的关系

视频中提到，( (I - A)^{-1} ) 矩阵的元素与因果路径权重直接相关，这是分析因果影响的关键：

1. 矩阵逆的路径解释

对于下三角矩阵 ( A )，( (I - A)^{-1} ) 可展开为无穷级数（因 ( A ) 是下三角，高阶项最终为0）：
[ (I - A)^{-1} = I + A + A^2 + A^3 + \dots + A^k \quad (\text{当 } k \geq d \text{ 时，} A^k = 0) ]

物理意义：
- ( A^k ) 的元素 ( (A^k)_{ij} ) 表示从 ( z_i ) 到 ( z_j ) 的所有长度为 ( k ) 的有向路径的权重之和（路径权重为各边权重的乘积）；
- 因此 ( (I - A)^{-1} ) 的元素 ( (I - A)^{-1}_{ij} ) 表示从 ( z_i ) 到 ( z_j ) 的所有可能长度的有向路径的总权重，即总因果影响。

四、干预数据下的矩阵识别

当引入对潜在变量的干预时，视频通过逆协方差矩阵的变化推导干预目标和混合矩阵 ( G ) 的逆（记为 ( H = G^{-1} )）：

1. 干预后的逆协方差变化

设观测数据的逆协方差矩阵为 ( \Theta = \text{Cov}(x)^{-1} )，干预后变为 ( \Theta’ )，则：
[ \Theta’ - \Theta = H \cdot \Delta B \cdot H^T ]

符号说明：
- ( \Delta B ) 是干预引起的潜在变量逆协方差变化（仅干预目标行/列非零，秩为1）；
- ( H = G^{-1} ) 是混合矩阵的逆（将观测变量映射回潜在变量）。
推导逻辑：
干预仅改变潜在变量的协方差结构（( \Delta B )），而观测变量的协方差变化由 ( G ) 传递，因此逆协方差的变化可表示为 ( H \cdot \Delta B \cdot H^T )。由于 ( \Delta B ) 秩为1，( \Theta’ - \Theta ) 的行/列空间与 ( H ) 的行空间一致，从而可通过此关系识别 ( H )。

2. 混合矩阵逆 ( H ) 的恢复

通过对 ( \Theta’ - \Theta ) 进行特征分解或投影，可提取 ( H ) 的行向量（仅差一个缩放因子）。例如，若干预目标为第 ( i ) 个潜在变量，则 ( \Theta’ - \Theta ) 的行空间由 ( H ) 的第 ( i ) 行张成，从而可恢复该行使。

五、关键结论总结

线性结构因果模型中，潜在变量的协方差由权重矩阵 ( A ) 和噪声方差 ( \Sigma ) 决定，且与因果路径权重直接相关；
观测变量的协方差是潜在变量协方差经混合矩阵 ( G ) 映射的结果；
引入干预数据后，通过逆协方差矩阵的变化可识别混合矩阵的逆 ( H )，进而恢复潜在变量的因果结构。

这些推导为从高维观测数据中挖掘潜在因果关系提供了数学基础，是因果表征学习的核心工具。

Why $\sum^{\frac{1}{2}}$ ?

在公式 ( z = A^T z + \Sigma^{1/2} \epsilon ) 中，( \Sigma^{1/2} ) 的引入与噪声项的方差规范化直接相关，其核心作用是分离噪声的“缩放效应”与“独立性假设”，让模型更符合因果推断的基本设定。以下从数学原理和因果模型需求两方面详细解释：

噪声项的方差与独立性假设 在因果结构模型（SCM）中，外生噪声 ( \epsilon ) 需满足两个关键性质：

独立性：不同变量的噪声相互独立（无混淆），即 ( \text{Cov}(\epsilon) = I )（单位矩阵）。这是因果模型中“外生变量无父节点”的数学体现——噪声不能被其他变量（包括其他噪声）解释。
方差可控：每个噪声项 ( \epsilon_j ) 可以有不同的方差（反映变量 ( z_j ) 受不可观测因素影响的程度），但需通过一个矩阵统一表示。

( \Sigma^{1/2} ) 的数学意义：方差的“分解”与“缩放”

( \Sigma ) 的定义：( \Sigma ) 是噪声项 ( \Sigma^{1/2} \epsilon ) 的协方差矩阵。
根据协方差的性质 ( \text{Cov}(M \epsilon) = M \cdot \text{Cov}(\epsilon) \cdot M^T )（( M ) 为常数矩阵），代入 ( M = \Sigma^{1/2} ) 和 ( \text{Cov}(\epsilon) = I )，可得：
[ \text{Cov}(\Sigma^{1/2} \epsilon) = \Sigma^{1/2} \cdot I \cdot (\Sigma^{1/2})^T = \Sigma^{1/2} \cdot \Sigma^{1/2} = \Sigma ]
因此，( \Sigma ) 直接表示了噪声项 ( \Sigma^{1/2} \epsilon ) 的协方差矩阵，其对角元素 ( \Sigma_{jj} ) 就是第 ( j ) 个噪声项的方差。
( \Sigma^{1/2} ) 的作用：
它是 ( \Sigma ) 的“平方根矩阵”（通常取对称平方根），用于将单位方差的噪声 ( \epsilon ) 缩放为指定方差的噪声 ( \Sigma^{1/2} \epsilon )。
例如，若 ( \Sigma ) 是对角矩阵 ( \text{diag}(\sigma_1^2, \sigma_2^2, …, \sigma_d^2) )，则 ( \Sigma^{1/2} = \text{diag}(\sigma_1, \sigma_2, …, \sigma_d) )，此时：
[ \Sigma^{1/2} \epsilon = (\sigma_1 \epsilon_1, \sigma_2 \epsilon_2, …, \sigma_d \epsilon_d)^T ]
每个噪声项的方差被缩放为 ( \sigma_j^2 )，同时保持了 ( \epsilon ) 的独立性（因 ( \Sigma^{1/2} ) 是对角矩阵，不引入交叉项）。

为什么不直接用 ( \epsilon ) 而要引入 ( \Sigma^{1/2} )

分离“结构”与“缩放”：
公式 ( z = A^T z + \Sigma^{1/2} \epsilon ) 中，( A^T ) 刻画了变量间的因果结构（父节点对子女的影响权重），而 ( \Sigma^{1/2} ) 单独控制噪声的方差大小。这种分离让模型更灵活——可以在不改变因果结构（( A ) 不变）的情况下，调整噪声的影响程度（( \Sigma ) 变化）。
符合因果推断的可识别性需求：
在后续的协方差矩阵推导（如 ( \text{Cov}(z) ) 的计算）中，( \Sigma^{1/2} ) 的引入能让噪声方差清晰地体现在结果中，避免与因果结构参数 ( A ) 混淆。例如，潜在变量 ( z ) 的协方差公式：
[ \text{Cov}(z) = (I - A^T)^{-1} \Sigma \left( (I - A^T)^{-1} \right)^T ]
其中 ( \Sigma ) 直接对应噪声的总方差，这为从观测数据反推因果结构（( A )）提供了可识别的数学条件。