笔记04： t 分布：小样本统计推断的核心工具-限时活动-万盛网游

通过“标准正态变量 / 卡方变量自由度开方”的构造，完美解决了“总体方差未知”时的统计检验问题

🔍 什么是 t 分布？

t分布（Student’s t-distribution）是统计学家 William Sealy Gosset 以“Student”为笔名提出的分布，专门解决总体方差未知、小样本场景下的统计推断问题。

从数学定义看，若满足：

\(X \sim N(0,1)\)（标准正态分布）

\(Y \sim \chi^2(n)\)（自由度为 \(n\) 的卡方分布）

\(X\) 与 \(Y\) 相互独立

则构造统计量：

\[T = \frac{X}{\sqrt{Y/n}}

该统计量服从自由度为 \(n\) 的 t 分布，记为 \(T \sim t(n)\)。

自由度 \(n\) 是t分布的核心参数：它代表“独立信息的数量”。例如用样本标准差 \(S\) 替代总体标准差 \(\sigma\) 时，会损失1个自由度，因此单样本场景下自由度为 \(n-1\)（\(n\) 为样本量）。

📊 直观理解：t 分布的均值与方差

t分布的形状和标准正态分布类似（对称、钟形），但尾部更厚，且受自由度影响极大：

自由度条件

均值 \(E[T]\)

方差 \(\text{Var}[T]\)

直观含义

\(n > 1\)

\(0\)

\(\frac{n}{n-2}\)（\(n > 2\)）

自由度越小（样本量越小），尾部越厚——小样本下用 \(S\) 估计 \(\sigma\) 的误差大，极端值概率更高；自由度越大，t分布越接近标准正态分布（\(n \to \infty\) 时方差趋近于1）

\(n = 1\)

不存在（柯西分布）

无穷大

极端小样本下，分布极不稳定

简单来说：自由度越小，t分布“越胖”；自由度越大，t分布越“瘦”（越接近标准正态）。

🎯 核心应用场景：为什么这些场景能用 t 分布？

我们结合开头的流程图，拆解每个场景的构造逻辑：

1. 场景1：总体方差未知时，单样本均值的标准化

问题：想检验“样本均值 \(\bar{X}\) 是否来自均值为 \(\mu\) 的总体”，但总体标准差 \(\sigma\) 未知，只能用样本标准差 \(S\) 替代。

构造逻辑：

若 \(\sigma\) 已知，样本均值标准化为 \(Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)\)；

若 \(\sigma\) 未知，用 \(S\) 替代后，统计量变为 \(T = \frac{\bar{X} - \mu}{S/\sqrt{n}}\)。

此时，\((\bar{X} - \mu)\sqrt{n}/\sigma \sim N(0,1)\)，且 \((n-1)S^2/\sigma^2 \sim \chi^2(n-1)\)（卡方分布），两者独立。

代入t分布定义，可得 \(T \sim t(n-1)\)，完全符合“正态/卡方平方根”的构造。

2. 场景2：两独立小样本的均值差检验（方差齐性假设下）

问题：比较两个总体的均值，但两个总体的方差都未知，且样本量较小（小样本）。

构造逻辑：

先计算合并样本方差 \(S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}\)，用于估计两个总体的共同方差；

均值差 \(\bar{X}_1 - \bar{X}_2\) 标准化后，分子是正态分布，分母由合并方差构造（含卡方分布的自由度）；

最终得到 \(T = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)}{S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)\)，满足t分布的结构。

3. 场景3：配对样本的均值差检验

问题：分析同一组样本在两次处理后的差异（如“治疗前-治疗后”的效果），检验差值的均值是否为0。

构造逻辑：

计算配对差值 \(D_i = X_{i1} - X_{i2}\)，将问题转化为“单样本均值检验”（检验 \(\bar{D}\) 是否为0）；

用差值的样本标准差 \(S_D\) 替代总体标准差，得到 \(T = \frac{\bar{D} - \mu_D}{S_D/\sqrt{n}} \sim t(n-1)\)，本质和场景1一致。

4. 场景4：线性回归中回归系数的显著性检验

问题：检验回归系数 \(\beta_j\) 是否显著不为0（即自变量 \(X_j\) 对因变量是否有显著影响）。

构造逻辑：

回归系数的估计量 \(\hat{\beta}_j\) 服从正态分布；

其标准误 \(\text{SE}(\hat{\beta}_j)\) 由残差的卡方分布构造（残差平方和服从卡方分布）；

因此 \(T = \frac{\hat{\beta}_j - \beta_j}{\text{SE}(\hat{\beta}_j)} \sim t(n - k - 1)\)（\(k\) 为自变量个数），符合t分布的构造。

（原假设\(H_0: \beta_j = \beta_j^0=0\)）

📌 总结

t分布是小样本推断的“核心武器”，它通过“标准正态变量 / 卡方变量自由度开方”的构造，完美解决了“总体方差未知”时的统计检验问题。理解自由度的含义、均值方差的直观特征，以及不同场景下的构造逻辑，能让我们更灵活地用t分布解决实际问题。

万盛网游 - 热门活动与版本更新情报站

万盛网游 - 热门活动与版本更新情报站