参数估计

我们把书本上的条条框框先拆掉,按照**“管理决策的逻辑流”,从头到尾把推断统计(参数估计)**这一章重新构建一遍。

我们要解决的核心问题只有一个:上帝视角的真理(总体参数)我看不到,我手里只有一小撮数据(样本统计量),我该怎么向老板汇报?

整个推断统计的体系,其实就只有三步走


第一步:点估计 —— 给老板一个“最靠谱的猜测”

1. 需求场景
老板问:“我们要在这个城市开分店,这里的人平均月薪($\mu$)是多少?”
你肯定不能把全城几百万人都调查一遍(成本太高)。你只随机调查了100个人($n=100$)。

2. 解决方案
你算了一下这100个人的平均工资是 8000元($\bar{x}=8000$)。
于是你跟老板说:“老板,我觉得全市平均工资大概就是 8000。”

这就是点估计:直接把样本的指标($\bar{x}$),当成总体的指标($\mu$)。

3. 这里的逻辑(为什么敢这么干?)
因为我们相信数学上的三个原则:

  • 无偏性:虽然这次可能高了或低了,但在理论上,$\bar{x}$ 的期望就是 $\mu$。
  • 有效性:$\bar{x}$ 的波动比其他瞎猜的方法小。
  • 一致性:样本越多越准。

4. 痛点
老板不傻,他会问:“准吗? 刚好8000?不可能吧?是7999还是8001?”
点估计最大的缺点是:它没告诉你误差有多大,命中率几乎为0(因为连续数据要在数轴上精准命中某一点,概率为0)。


第二步:区间估计 —— 给猜测加一个“安全气囊”

1. 需求升级
为了严谨,你不能只给一个数。你要给一个范围,并且告诉老板这个范围有多可信

2. 解决方案逻辑(核心公式的诞生)
我们在以前学过“标准分数(Z分数)”,对吧?
$$ Z = \frac{\text{某个数} - \text{均值}}{\text{标准差}} $$

在推断统计里,核心逻辑就是把这个公式变个形:

  • 前提(中心极限定理):统计学家告诉我们,不管总体长什么样,只要样本量够大,样本均值 $\bar{x}$ 的分布就会服从正态分布。
  • 公式推导(不用背,看一眼就懂)
    $$ Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}} $$
    我们现在的目标是求 $\mu$(总体均值)。我们把公式变换一下,把 $\mu$ 留在左边:
    $$ \mu = \bar{x} \pm Z \times \frac{\sigma}{\sqrt{n}} $$

3. 那个著名的公式就出来了:
$$ \text{置信区间} = \text{点估计} \pm (\text{可靠系数} \times \text{标准误}) $$

  • 点估计:$\bar{x}$(你的观测值,比如8000)。
  • 标准误:$\frac{\sigma}{\sqrt{n}}$(样本均值的标准差)。
    • 注意:这里为什么要除以 $\sqrt{n}$? 因为平均值比单个数据更稳定。样本越多(n越大),平均值波动越小,估得越准。
  • 可靠系数:$Z$ 或 $t$(这就用到了三大分布!)。

第三步:量化风险 —— 搞懂“置信水平”与“显著性水平”

这一步是为了确定公式里的那个 $Z$(可靠系数)到底取多少。

1. 置信水平 (Confidence Level, $1-\alpha$)

  • 人话:你希望你的这一网下去,有多大把握能捞到真理?
  • 最常用的标准95% ($0.95$)。
  • 对应的 Z 值:查表可得,95% 对应的是 1.96
    • 意思是:$\bar{x}$ 往左往右各偏 1.96 个标准误差,就能覆盖住 95% 的可能性。

2. 显著性水平 (Significance Level, $\alpha$)

  • 人话:你容忍的犯错概率是多少?
  • 如果置信水平是 95%,那犯错概率 $\alpha = 5%$ ($0.05$)。
  • 这就是“显著性水平”。

3. 这一步的产出
你跟老板汇报:“老板,我有 95% 的把握(置信水平),全市平均工资在 7800 到 8200 之间(置信区间)。”
潜台词:我也承认有 5% 的可能(显著性水平),这个结论是错的,真实工资其实是 20000 或者 2000,但我尽力了。


第四步:实战工具箱 —— 到底该用 Z,t,还是 $\chi^2$?

到了考试或实际应用,最难的是选公式。我们把三大分布也就是在这里派上用场的。

场景 A:估算平均值 (比如:平均工资、平均寿命)

这是最常见的。公式模型:$\bar{x} \pm \text{系数} \times \text{标准误}$

  1. 如果你知道总体的标准差 $\sigma$(上帝视角):
    • 用 Z 分布
    • 系数查 Z 表(比如 1.96)。
  2. 如果你不知道 $\sigma$,只有样本标准差 $S$(现实情况通常如此):
    • 大样本 ($n \ge 30$):虽然理论上用 t,但 t 分布在大样本下和 Z 几乎一样,所以也可以用 Z
    • 小样本 ($n < 30$):必须用 t 分布
    • 为什么要用 t? 因为 $S$ 不准,我们需要把区间拉宽一点来容错,t 分布的尾巴更厚,算出来的区间会比 Z 宽一点,更保守。

场景 B:估算比例 (比如:支持率、次品率)

  • 比如:调查某产品的次品率 $p$。
  • 用 Z 分布
  • 公式:$p \pm Z \sqrt{\frac{p(1-p)}{n}}$

场景 C:估算方差/波动 (比如:机器精度的稳定性)

  • 老板问:“这个机器生产零件的误差范围(方差 $\sigma^2$)是多少?”
  • 这里不能用 Z 或 t 了,因为方差是平方数,不能是负的。
  • 用 $\chi^2$ 分布 (卡方分布)
  • 逻辑:构造一个基于平方和的区间。

场景 D:比较两个总体的方差 (比如:机器A和机器B谁更稳?)

  • 用 F 分布
  • 逻辑:看 $\frac{S_A^2}{S_B^2}$ 这个比值是不是接近 1。

总结:推断统计的思维导图

复习的时候,按这个顺序思考,就不会乱:

  1. 目的:用样本估总体。
  2. 方法:先点估计(给个基准数),再区间估计(给个范围)。
  3. 构造区间
    $$ \text{结果} = \text{点估计} \pm \text{系数} \times \text{标准误} $$
  4. 确定系数(找分布)
    • 你要算平均值吗?
      • 知道 $\sigma$ 吗? $\to$ Z
      • 不知道 $\sigma$ 且样本小? $\to$ t
    • 你要算**波动(方差)**吗? $\to$ $\chi^2$
    • 你要比波动吗? $\to$ F
  5. 确定范围
    • 看置信水平 ($1-\alpha$),通常是 95%。

这就是推断统计的完整逻辑闭环。所有的公式变化,都是在这个框架里换不同的零件而已。现在对这三大分布的“分工”是不是清晰点了?

统计学最忌讳的就是“死记公式”。如果你只背公式,考试时只要题目换个马甲(比如把“灯泡寿命”换成“电池续航”),你立刻就懵了。

要摆脱“套公式”的感觉,我们需要建立**“诊断思维”**。就像医生看病一样,先看症状,再开药方(选公式)。

我们来解剖它们,看看在拿到题目的一瞬间,大脑是如何判断该用哪个公式的。


第一局:这是“上帝视角”还是“凡人视角”?(Z vs t)

请看两个例题。它们看起来都是求“平均值的置信区间”,但解法完全不同。

案例 A:袋装食品重量

题目核心信息

  1. 抽取 $n=25$ 袋。
  2. 已知“总体标准差为 10克”。
  3. 求 95% 置信区间。
  • 诊断过程(大脑独白)

    • Step 1:我要估什么? $\to$ 平均重量(总体均值 $\mu$)。
    • Step 2:我看得到上帝视角的真理吗? $\to$ 题目说了“总体标准差为10”。
    • Step 3:判决! 既然知道了总体标准差($\sigma$),这就是上帝视角。不管样本量是多是少(虽然25<30),只要 $\sigma$ 已知,直接用最完美的 Z分布
  • 开药方(公式)
    $$ \bar{x} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}} $$

    • $\sigma = 10$(直接代入,不用算样本方差)。

案例 B:灯泡使用寿命

题目核心信息

  1. 抽取 $n=16$ 个灯泡。
  2. 数据列了一堆(1510, 1450…),没提总体标准差。
  3. 求 95% 置信区间。
  • 诊断过程(大脑独白)

    • Step 1:我要估什么? $\to$ 平均寿命(总体均值 $\mu$)。
    • Step 2:我看得到上帝视角的真理吗? $\to$ 题目没给 $\sigma$。我手里只有这16个烂数据。
    • Step 3:样本够大吗? $\to$ $n=16$,小于30,属于小样本
    • Step 4:判决! 没有上帝视角($\sigma$未知),样本又少(穷),只能用宽容度更高的 t分布
  • 开药方(公式)
    $$ \bar{x} \pm t_{\alpha/2}(n-1) \frac{s}{\sqrt{n}} $$

    • 注意点:这里公式里是 $s$(样本标准差),你需要按计算器先算出这16个数的标准差 $s=24.77$。
    • 查表:查的是 $t$ 表,自由度是 $16-1=15$。

💡 总结:

  • 看到“总体标准差” $\to$ Z (不管n大小)
  • 没看到“总体”,且 $n<30$ $\to$ t
  • 没看到“总体”,但 $n>30$ $\to$ Z (因为大样本下 t 和 Z 差不多,大部分教材允许用 Z)

第二局:两个世界怎么比?(双样本均值之差)

这是考试中最复杂的公式(看起来很吓人),但逻辑很简单。

案例 C:两个学校的分数差异

场景:你想知道A校和B校的学生,平均分差多少?

  • A校抽46人,均分86,方差$S_1$。
  • B校抽33人,均分78,方差$S_2$。
  • 诊断过程(大脑独白)

    • Step 1:目标是什么? $\to$ 找差距 ($\mu_1 - \mu_2$)。
    • Step 2:样本是独立的吗? $\to$ 是的,A校学生和B校学生没关系(如果是同一个学生补课前后的成绩,那就是“配对样本”,公式不一样,但这里是独立)。
    • Step 3:方差(波动)一样吗? $\to$
      • 情况1(图4公式下半部分 $S_p^2$):如果我们假设两个学校虽然平均分不同,但学生水平参差不齐的程度(方差)是一样的($\sigma_1^2 = \sigma_2^2$)。
      • 判决:既然方差一样,那不如把两组数据倒进一个大池子里算一个“混合方差”(Pooled Variance, $S_p^2$)。这样算得更准。
      • 情况2(图4公式上半部分 $v$):如果A校是普通中学(分化大),B校是精英中学(都很强,分化小),方差明显不同($\sigma_1^2 \ne \sigma_2^2$)。
      • 判决:不能混合,必须用那个超级复杂的自由度公式(Satterthwaite近似)。
  • 考试技巧

    • 通常题目会告诉你“假设两总体方差相等”。看到这句话,马上反应:用混合方差 $S_p^2$ 的 t 检验公式。就是笔记里写着 $n_1+n_2-2$ 自由度的那个。

第三局:老板要多准?(样本量的确定)

这通常是填空题或第一道大题。

案例 D:倒推人数

题目:要做市场调查,要求误差不超过 400元 ($E=400$),标准差约为 2000元 ($\sigma=2000$),置信水平 95% ($Z=1.96$)。问要抽多少人?

  • 逻辑(不是背公式,是解方程)
    我们知道误差公式是:
    $$ E = Z \times \frac{\sigma}{\sqrt{n}} $$
    老板限定了 $E$,让你求 $n$。直接移项:
    $$ \sqrt{n} = \frac{Z \times \sigma}{E} \implies n = \frac{Z^2 \sigma^2}{E^2} $$

  • 必须要懂的“坑”:进位取整

    • 你看笔记里算出来 $n = 96.04$。
    • 能取 96 吗? 哪怕是 96.0001,也要取 97
    • 为什么? 因为样本越多,误差越小。如果是 96人,误差刚好比 400 稍微大了一丢丢(比如 400.1元),就不符合老板要求了。所以必须向上取整

🔥 模拟实战:现在轮到你了

我不给答案,你根据上面的逻辑,判断下面三个场景该用什么公式?(告诉我用 Z 还是 t,还是其他?)

练习 1:大选预测

某报社想预测A候选人的支持率。随机采访了 1000 位市民 ($n=1000$),其中 550 人支持。请构建 95% 的置信区间。

  • 你的诊断:这是求均值还是比例?样本量大吗?用什么分布?

练习 2:新药测试

研发了一款新止痛药。在 10 名志愿者身上测试药效持续时间 ($n=10$)。算得样本标准差为 1.5小时。假设药效服从正态分布。求平均药效的 95% 置信区间。

  • 你的诊断:知道总体标准差吗?样本量如何?用什么分布?

练习 3:精密仪器

工厂新进一台机器,要求其生产零件的直径波动(方差)不能太大。抽取 20 个零件,想估算这台机器的方差置信区间。

  • 你的诊断:研究目标是均值还是方差?用 Z, t, F 还是 $\chi^2$?

参数估计(Parameter Estimation)主要考两类:

  1. 点估计:用样本均值直接代表总体均值(很简单,通常是送分)。
  2. 区间估计:给定置信水平(比如 95%),算出一个范围(置信区间)。

这也是考试的重点。我为你准备了三道最有代表性的题目:

  • 题目一:求总体均值的区间(未知 $\sigma$,由样本 $s$ 代替,考 $t$ 分布)。
  • 题目二:求总体比例的区间(比如支持率、合格率,考 $Z$ 分布)。
  • 题目三:概念理解题(很多人的盲区)。

【题目一】总体均值的区间估计($\sigma$ 未知)

场景:某汽车厂为了测试一种新车型的耗油量,随机选取了 16 辆 汽车进行测试。测得每百公里耗油量的平均值为 8.5 升,样本标准差为 0.8 升
假设耗油量服从正态分布。

已知

  • $t_{0.025}(15) = 2.131$ (对应 95% 置信度)
  • $t_{0.025}(16) = 2.120$

问题
请构建该车型每百公里平均耗油量的 95% 置信区间
(请写出计算公式和步骤)


【题目二】总体比例的区间估计(大样本)

场景:一家手机厂商想调查用户对其新系统的满意度。他们随机抽查了 400 名 用户,其中有 320 名 用户表示“满意”。

已知

  • $Z_{0.025} = 1.96$ (对应 95% 置信度)

问题

  1. 用户满意度的点估计值是多少?
  2. 请构建全市用户满意度的 95% 置信区间

【题目三】概念陷阱题(判断题)

场景:关于“95% 置信区间”,以下哪种说法是正确的?(这是考研和期末考最爱挖的坑)

A. 总体均值 $\mu$ 有 95% 的概率落在这个区间内。
B. 如果我们做 100 次抽样,算出 100 个置信区间,大约有 95 个区间会包含真实的总体均值。
C. 这个区间包含了 95% 的样本数据。


🛑 拿出纸笔算一下再看答案!

(提示:区间估计的核心公式就是 “均值 $\pm$ 误差系数 $\times$ 标准误”

.
.
.
.
.
.
.
.
.


【答案解析】

题目一解析(均值区间)

这是最标准的考试题型:小样本、方差未知 $\rightarrow$ 使用 $t$ 分布

  1. 提取信息

    • 样本均值 $\bar{x} = 8.5$
    • 样本标准差 $s = 0.8$
    • 样本量 $n = 16$ (所以自由度 $df = n-1 = 15$)
    • 查表系数:题目给了,用 $t_{0.025}(15) = 2.131$
  2. 公式
    $$ \bar{x} \pm t_{\alpha/2} \times \frac{s}{\sqrt{n}} $$

  3. 计算

    • 标准误 (Standard Error) = $\frac{s}{\sqrt{n}} = \frac{0.8}{\sqrt{16}} = \frac{0.8}{4} = 0.2$
    • 边际误差 (Margin of Error) = $t \times \text{标准误} = 2.131 \times 0.2 = 0.4262$
    • 下限 = $8.5 - 0.4262 = 8.0738$
    • 上限 = $8.5 + 0.4262 = 8.9262$
  4. 结论
    95% 置信区间为 [8.07, 8.93](保留两位小数)。


题目二解析(比例区间)

这是大样本比例估计 $\rightarrow$ 使用 $Z$ 分布

  1. 点估计

    • 样本比例 $p = \frac{320}{400} = 0.8$ (即 80%)
  2. 区间估计公式
    $$ p \pm Z_{\alpha/2} \times \sqrt{\frac{p(1-p)}{n}} $$

  3. 计算

    • 标准误 = $\sqrt{\frac{0.8 \times 0.2}{400}} = \sqrt{\frac{0.16}{400}} = \sqrt{0.0004} = 0.02$
    • 边际误差 = $1.96 \times 0.02 = 0.0392$ (也就是 3.92%)
    • 下限 = $0.8 - 0.0392 = 0.7608$
    • 上限 = $0.8 + 0.0392 = 0.8392$
  4. 结论
    95% 置信区间为 [76.08%, 83.92%]


题目三解析(概念理解)

正确答案是 B。

  • A 是错的(经典陷阱)
    总体均值 $\mu$ 是一个固定的数(虽然我们不知道是多少,比如上帝知道它就是 8.5),它要么在区间里,要么不在。它不是随机变量,没有“跑来跑去”的概率。

    • 比喻:你在这个房间里(真值),我扔一个圈(区间)去套你。一旦圈扔出去了(区间算出来了),你在里面就在里面,不在就不在,没有概率可言。
  • B 是对的
    95% 指的是方法的可靠性。如果我们反复做这个实验,扔 100 次圈,有 95 次能套中你。

  • C 是错的
    置信区间估计的是参数(均值),而不是包含样本数据。


总结:参数估计解题三部曲

  1. 看类型:是求“平均值”还是求“百分比”?
  2. 找公式
    • 平均值用 $\frac{s}{\sqrt{n}}$。如果是小样本($n<30$)查 t表,大样本查 Z表
    • 百分比用 $\sqrt{\frac{p(1-p)}{n}}$,查 Z表
  3. 套公式:点估计 $\pm$ 系数 $\times$ 标准误。

这份模拟卷二完全按照你的新要求调整了:

  1. 计算题:改为方差分析表填空(单因素+双因素),这是考察公式逻辑最直接的方式,也是考试高频题型。
  2. 材料题:SPSS输出表格全部换成中文版

请计时90分钟


管理统计学 期末模拟考试(卷二)

重点突破:方差分析表逻辑 & 中文SPSS解读

一、单项选择题(每题1.5分,共18题,27分)

  1. 如果在假设检验中,我们要检验“某产品的次品率是否低于2%”,原假设$H_0$和备择假设$H_1$应设立为:
    A. $H_0: \pi < 0.02, H_1: \pi \ge 0.02$
    B. $H_0: \pi \ge 0.02, H_1: \pi < 0.02$
    C. $H_0: \pi = 0.02, H_1: \pi \ne 0.02$
    D. $H_0: \pi \le 0.02, H_1: \pi > 0.02$

  2. 方差分析(ANOVA)中,$F$统计量的定义是:
    A. 组间均方 / 组内均方 ($MSA / MSE$)
    B. 组内均方 / 组间均方 ($MSE / MSA$)
    C. 组间平方和 / 组内平方和 ($SSA / SSE$)
    D. 组内平方和 / 组间平方和 ($SSE / SSA$)

  3. 老师上课强调,样本均值的标准误差(Standard Error of Mean)等于:
    A. 总体标准差 $\sigma$
    B. 样本方差 $S^2$
    C. 样本标准差 $S$ 除以样本量的平方根 ($\frac{S}{\sqrt{n}}$)
    D. 样本均值 $\bar{x}$

  4. 下列哪种情况适合使用双因素方差分析
    A. 研究“性别”对“身高”的影响
    B. 研究“广告费用”对“销售额”的线性关系
    C. 研究“性别”和“学历”两个变量对“工资”的共同影响
    D. 研究“城市”和“农村”的人口比例差异

  5. 在SPSS输出的中文表格中,“显著性”一栏显示的数值通常指的是:
    A. $\alpha$ (Alpha)
    B. $P$值 (P-value)
    C. $F$值
    D. 自由度 ($df$)

  6. 如果一个研究中,我们想证明两个分类变量(如“星座”和“性格类型”)是不独立的,应该看卡方检验的P值。如果 $P < 0.05$,说明:
    A. 两个变量相互独立,没关系
    B. 两个变量之间存在显著的关联
    C. 两个变量是正态分布的
    D. 无法得出结论

  7. 关于第一类错误($\alpha$),下列描述最准确的是:
    A. 实际上没有区别,但你误以为有区别(拒绝了正确的原假设)
    B. 实际上有区别,但你没发现(接受了错误的原假设)
    C. 这是一个系统性误差,无法避免
    D. 也就是1减去置信水平

  8. 数据“年级(大一/大二/大三/大四)”属于什么类型的数据?
    A. 定类数据 (Nominal) - 无顺序
    B. 定序数据 (Ordinal) - 有顺序
    C. 间隔数据 (Interval)
    D. 比率数据 (Ratio)

  9. 在单因素方差分析中,如果一共有4个组,每组有10个样本,那么组间自由度组内自由度分别是:
    A. 4, 10
    B. 3, 40
    C. 3, 36
    D. 4, 36

  10. “中心极限定理”告诉我们,当样本量 $n$ 足够大(通常 $n \ge 30$)时:
    A. 总体分布一定是正态的
    B. 样本均值的抽样分布近似服从正态分布
    C. 样本方差等于总体方差
    D. 任何统计检验都不需要了

  11. 老师提到“维度”类似ER图的属性。如果一张表记录了:学号、姓名、性别、高数分、英语分、体育分。这属于:
    A. 1维数据
    B. 2维数据
    C. 低维度数据
    D. 高维度数据(多维)

  12. 下列关于相关系数 $r$ 的说法,错误的是:
    A. $r$ 的取值范围是 -1 到 +1
    B. $r=0$ 表示两个变量完全没有关系(包括非线性关系)
    C. $r > 0$ 表示正相关
    D. $r$ 越接近1或-1,线性相关程度越强

  13. 在假设检验中,如果我们想提高检验的可靠性,降低犯第一类错误的概率,我们应该:
    A. 调大显著性水平 $\alpha$(如从0.01调到0.05)
    B. 调小显著性水平 $\alpha$(如从0.05调到0.01)
    C. 减少样本量
    D. 不做任何改变

  14. 时间序列预测在老师课上提到的主要应用场景是:
    A. 医疗诊断
    B. 历史文献分析
    C. 金融领域(如股票、期货预测)
    D. 心理咨询

  15. 观察法实验法最本质的区别在于:
    A. 样本量的大小
    B. 是否使用了计算机
    C. 是否有人为的干预(控制变量)
    D. 数据的准确性

  16. 已知某次检验的 $P$ 值为 0.08,显著性水平 $\alpha=0.05$,结论是:
    A. 拒绝原假设,差异显著
    B. 不拒绝原假设,差异不显著
    C. 接受备择假设
    D. 实验失败

  17. 在方差分析中,如果数据不满足方差齐性(Levene检验 $P < 0.05$),严格来说:
    A. 不能直接进行标准的方差分析,需要用其他方法或校正
    B. 依然可以照常进行,结果完全可信
    C. 说明均值一定不相等
    D. 说明数据不是正态分布

  18. 箱线图中,箱子的长度(上四分位数 - 下四分位数)反映了数据的:
    A. 集中趋势
    B. 离散程度(变异程度)
    C. 对称性
    D. 样本量


二、判断题(每题1分,共14题,14分)

  1. 假设检验中,我们总是试图去“推翻”原假设 $H_0$。( )
  2. 总离差平方和 $SST$ 反映了全部数据偏离总均值的程度。( )
  3. 如果两个变量相关系数 $r=0.9$,我们可以断定是A导致了B的变化。( )
  4. 样本量越大,样本均值的标准误差(Standard Error)越小。( )
  5. 在双因素方差分析中,如果存在交互作用,意味着一个因素对结果的影响依赖于另一个因素的水平。( )
  6. P值越小,说明反对原假设的证据越强。( )
  7. 正态分布一定是关于均值对称的。( )
  8. 在SPSS中,“描述性统计”主要用于推断总体特征,而不是展示样本特征。( )
  9. 统计量是根据样本算出来的,它是一个随机变量;总体参数是固定的常数。( )
  10. 左侧检验的拒绝域在分布曲线的右尾。( )
  11. $F$ 分布是对称分布,可以取负值。( )
  12. 问卷调查虽然是人去做的,但因为它只是记录现状没有干预,所以属于观察法。( )
  13. 方差分析表中的 $Sig.$ 其实就是 P值。( )
  14. 自由度 ($df$) 通常与样本量 $n$ 和组数 $k$ 有关。( )

三、计算题(重点:填表)(共34分)

题目1:单因素方差分析表填空(18分)

某教授想比较3种不同的教学方法(A、B、C)对学生成绩的影响。他共选取了15名学生,每种方法分配5人。
部分计算结果已经填入下表,请利用公式关系补全表格中 (1) 到 (6) 的数值。
(提示:$SST = SSA + SSE$;$F = MSA/MSE$)

变差来源 平方和 (SS) 自由度 (df) 均方 (MS) F
组间 (因素) 240 (1) ______ (3) ______ (5) ______
组内 (误差) (2) ______ 12 10
总计 360 (6) ______

思考题(2分)
已知 $F_{0.05}(2, 12) = 3.89$。根据你算出的F值(填空5),你的结论是:__________(填“显著”或“不显著”)。

题目2:双因素方差分析表填空(无交互作用)(16分)

研究“品牌”(3个品牌)和“地区”(4个地区)对销量的影响。数据如下表。请补全 (1) 到 (5)

变差来源 平方和 (SS) 自由度 (df) 均方 (MS) F
行因素 (品牌) 400 (1) ______ 200 (4) ______
列因素 (地区) (2) ______ 3 100 (5) ______
误差 300 6 (3) ______
总计 1000 11

四、材料分析解释题(中文版SPSS)(共25分)

背景:某银行想知道“客户等级”(普通卡/金卡/白金卡)对“年度信用卡消费金额”(万元)是否有显著影响。
以下是SPSS输出的中文结果表格:

表1:描述性统计

客户等级 N 均值 标准差 标准误差
普通卡 20 2.50 0.80 0.18
金卡 20 5.60 1.10 0.25
白金卡 20 12.80 2.50 0.56
总计 60 6.97 4.50 0.58

表2:方差齐性检验

Levene 统计量 df1 df2 显著性 (Sig.)
1.842 2 57 0.168

表3:ANOVA (方差分析)

平方和 df 均方 F 显著性
组间 1020.5 2 510.25 150.3 0.000
组内 193.5 57 3.39
总计 1214.0 59

请回答下列问题:

  1. 数据类型(4分):

    • 自变量(因素)是:__________,属于______数据(填数值型或分类)。
    • 因变量(观测值)是:__________,属于______数据。
  2. 假设设立(4分):

    • 请用文字或符号写出原假设 $H_0$:__________。
    • 请用文字或符号写出备择假设 $H_1$:__________。
  3. 方差齐性判断(5分):

    • 查看表2,显著性(Sig.) = 0.168。
    • 这意味着各组的方差是相等的吗?(是/否)
    • 理由是:因为 P值 (0.168) _____ 0.05(填大于或小于),所以我们______原假设(填拒绝或不拒绝)。这对后续ANOVA分析是_____(填有利或不利)的。
  4. 统计结论(6分):

    • 查看表3,显著性(Sig.) = 0.000。
    • 因为 P值 < 0.05,所以我们决定:__________(拒绝/接受)原假设。
    • 结论:不同等级的客户,其年度信用卡消费金额__________(填“有”或“没有”)显著差异。
  5. 业务洞察(6分):

    • 结合**表1(描述性统计)**的均值数据,哪种卡的客户消费能力最强?
    • 如果你是银行经理,根据这个分析结果,你会重点把促销资源投放在哪个群体?为什么?


🛑 做完后再看答案解析 🛑

.
.
.
.
.
.

模拟卷二 参考答案与解析

一、单项选择题

  1. B
    • 解析:题目是“低于”($<$),没等号,放入$H_1$。所以$H_1: \pi < 0.02$。剩下的$H_0: \pi \ge 0.02$。
  2. A
    • 解析:公式 $F = MSA / MSE$。
  3. C
    • 解析:老师强调点。标准误差 = $S / \sqrt{n}$。
  4. C
    • 解析:两个分类变量(性别、学历)影响一个数值变量(工资)。
  5. B
    • 解析:中文SPSS的“显著性”就是P值 (Sig)。
  6. B
    • 解析:$P < 0.05$ 拒绝独立的原假设 $\rightarrow$ 有关联。
  7. A
    • 解析:弃真。本来没区别($H_0$真),你说有区别(拒了)。
  8. B
    • 解析:大一到大四是有顺序的分类数据。
  9. C
    • 解析:组数 $k=4$,组间 $df = 4-1=3$。总人数 $n=40$,组内 $df = 40-4=36$。
  10. B
    • 解析:中心极限定理是关于样本均值分布的。
  11. D
    • 解析:属性多=高维度。
  12. B
    • 解析:$r=0$ 只能说明无线性关系,可能有曲线关系。
  13. B
    • 解析:$\alpha$ 就是犯第一类错误的概率。想降低它,就调小 $\alpha$。
  14. C
    • 解析:老师上课原话。
  15. C
    • 解析:实验法有人为控制/干预。
  16. B
    • 解析:$0.08 > 0.05$,不显著,不拒绝。
  17. A
    • 解析:方差分析前提是方差齐性。如果不齐,标准方法结果不可靠。
  18. B
    • 解析:箱子越长,中间50%的数据越分散。

二、判断题

  1. T (反证法思维)
  2. T
  3. F (相关 $\ne$ 因果)
  4. T (分母 $\sqrt{n}$ 变大,误差变小)
  5. T (交互作用定义)
  6. T (P越小越显著)
  7. T
  8. F (描述统计是展示样本,推断统计才是推断总体)
  9. T (P82页概念)
  10. F (左侧检验拒绝域在左尾)
  11. F (F值是平方和的比值,永远非负)
  12. T (老师强调的坑点)
  13. T
  14. T

三、计算题(填表解析)

题目1:单因素方差分析

  • 逻辑链
    • 自由度
      • $n=15, k=3$。
      • (1) 组间 $df = k-1 = 3-1 = \mathbf{2}$。
      • (6) 总 $df = n-1 = 15-1 = \mathbf{14}$。(也可以通过 $2+12=14$ 验证)。
    • 平方和
      • (2) $SSE = MS_{error} \times df_{error} = 10 \times 12 = \mathbf{120}$。
      • 或者用 $SST - SSA = 360 - 240 = 120$。
    • 均方
      • (3) $MSA = SSA / df_{between} = 240 / 2 = \mathbf{120}$。
    • F值
      • (5) $F = MSA / MSE = 120 / 10 = \mathbf{12}$。
  • 思考题结论
    • $12 > 3.89$,所以是 显著

题目2:双因素方差分析

  • 逻辑链
    • 自由度
      • (1) 行因素(品牌):$MSA = SSA / df$ $\rightarrow$ $200 = 400 / df$ $\rightarrow$ $df = \mathbf{2}$。
    • 平方和
      • (2) 列因素(地区):$SSA_{col} = MS \times df = 100 \times 3 = \mathbf{300}$。
    • 均方(误差)
      • (3) $MSE = SSE / df_{error} = 300 / 6 = \mathbf{50}$。
    • F值
      • (4) 行F值 = $MS_{row} / MSE = 200 / 50 = \mathbf{4}$。
      • (5) 列F值 = $MS_{col} / MSE = 100 / 50 = \mathbf{2}$。

四、材料分析解释题

  1. 数据类型
    • 客户等级,分类数据。
    • 消费金额,数值型数据。
  2. 假设
    • $H_0$: $\mu_{普通} = \mu_{金卡} = \mu_{白金}$ (三种卡均值相等)。
    • $H_1$: 三种卡的均值不全相等。
  3. 方差齐性
    • 是(相等)。
    • 理由:P值 (0.168) 大于 0.05,所以我们 不拒绝 原假设。这对分析是 有利 的(满足了前提条件)。
  4. 统计结论
    • 拒绝 原假设。
    • 显著差异。
  5. 业务洞察
    • 白金卡最强(均值12.80万 >> 5.60 >> 2.50)。
    • 建议:重点投放白金卡客户。因为这部分客户虽然人数一样多,但人均贡献的消费额远超其他群体,ROI(投资回报率)可能更高;或者针对金卡客户进行升级营销。