参数估计
参数估计
我们把书本上的条条框框先拆掉,按照**“管理决策的逻辑流”,从头到尾把推断统计(参数估计)**这一章重新构建一遍。
我们要解决的核心问题只有一个:上帝视角的真理(总体参数)我看不到,我手里只有一小撮数据(样本统计量),我该怎么向老板汇报?
整个推断统计的体系,其实就只有三步走。
第一步:点估计 —— 给老板一个“最靠谱的猜测”
1. 需求场景
老板问:“我们要在这个城市开分店,这里的人平均月薪($\mu$)是多少?”
你肯定不能把全城几百万人都调查一遍(成本太高)。你只随机调查了100个人($n=100$)。
2. 解决方案
你算了一下这100个人的平均工资是 8000元($\bar{x}=8000$)。
于是你跟老板说:“老板,我觉得全市平均工资大概就是 8000。”
这就是点估计:直接把样本的指标($\bar{x}$),当成总体的指标($\mu$)。
3. 这里的逻辑(为什么敢这么干?)
因为我们相信数学上的三个原则:
- 无偏性:虽然这次可能高了或低了,但在理论上,$\bar{x}$ 的期望就是 $\mu$。
- 有效性:$\bar{x}$ 的波动比其他瞎猜的方法小。
- 一致性:样本越多越准。
4. 痛点
老板不傻,他会问:“准吗? 刚好8000?不可能吧?是7999还是8001?”
点估计最大的缺点是:它没告诉你误差有多大,命中率几乎为0(因为连续数据要在数轴上精准命中某一点,概率为0)。
第二步:区间估计 —— 给猜测加一个“安全气囊”
1. 需求升级
为了严谨,你不能只给一个数。你要给一个范围,并且告诉老板这个范围有多可信。
2. 解决方案逻辑(核心公式的诞生)
我们在以前学过“标准分数(Z分数)”,对吧?
$$ Z = \frac{\text{某个数} - \text{均值}}{\text{标准差}} $$
在推断统计里,核心逻辑就是把这个公式变个形:
- 前提(中心极限定理):统计学家告诉我们,不管总体长什么样,只要样本量够大,样本均值 $\bar{x}$ 的分布就会服从正态分布。
- 公式推导(不用背,看一眼就懂):
$$ Z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}} $$
我们现在的目标是求 $\mu$(总体均值)。我们把公式变换一下,把 $\mu$ 留在左边:
$$ \mu = \bar{x} \pm Z \times \frac{\sigma}{\sqrt{n}} $$
3. 那个著名的公式就出来了:
$$ \text{置信区间} = \text{点估计} \pm (\text{可靠系数} \times \text{标准误}) $$
- 点估计:$\bar{x}$(你的观测值,比如8000)。
- 标准误:$\frac{\sigma}{\sqrt{n}}$(样本均值的标准差)。
- 注意:这里为什么要除以 $\sqrt{n}$? 因为平均值比单个数据更稳定。样本越多(n越大),平均值波动越小,估得越准。
- 可靠系数:$Z$ 或 $t$(这就用到了三大分布!)。
第三步:量化风险 —— 搞懂“置信水平”与“显著性水平”
这一步是为了确定公式里的那个 $Z$(可靠系数)到底取多少。
1. 置信水平 (Confidence Level, $1-\alpha$)
- 人话:你希望你的这一网下去,有多大把握能捞到真理?
- 最常用的标准:95% ($0.95$)。
- 对应的 Z 值:查表可得,95% 对应的是 1.96。
- 意思是:$\bar{x}$ 往左往右各偏 1.96 个标准误差,就能覆盖住 95% 的可能性。
2. 显著性水平 (Significance Level, $\alpha$)
- 人话:你容忍的犯错概率是多少?
- 如果置信水平是 95%,那犯错概率 $\alpha = 5%$ ($0.05$)。
- 这就是“显著性水平”。
3. 这一步的产出
你跟老板汇报:“老板,我有 95% 的把握(置信水平),全市平均工资在 7800 到 8200 之间(置信区间)。”
潜台词:我也承认有 5% 的可能(显著性水平),这个结论是错的,真实工资其实是 20000 或者 2000,但我尽力了。
第四步:实战工具箱 —— 到底该用 Z,t,还是 $\chi^2$?
到了考试或实际应用,最难的是选公式。我们把三大分布也就是在这里派上用场的。
场景 A:估算平均值 (比如:平均工资、平均寿命)
这是最常见的。公式模型:$\bar{x} \pm \text{系数} \times \text{标准误}$
- 如果你知道总体的标准差 $\sigma$(上帝视角):
- 用 Z 分布。
- 系数查 Z 表(比如 1.96)。
- 如果你不知道 $\sigma$,只有样本标准差 $S$(现实情况通常如此):
- 大样本 ($n \ge 30$):虽然理论上用 t,但 t 分布在大样本下和 Z 几乎一样,所以也可以用 Z。
- 小样本 ($n < 30$):必须用 t 分布。
- 为什么要用 t? 因为 $S$ 不准,我们需要把区间拉宽一点来容错,t 分布的尾巴更厚,算出来的区间会比 Z 宽一点,更保守。
场景 B:估算比例 (比如:支持率、次品率)
- 比如:调查某产品的次品率 $p$。
- 用 Z 分布。
- 公式:$p \pm Z \sqrt{\frac{p(1-p)}{n}}$
场景 C:估算方差/波动 (比如:机器精度的稳定性)
- 老板问:“这个机器生产零件的误差范围(方差 $\sigma^2$)是多少?”
- 这里不能用 Z 或 t 了,因为方差是平方数,不能是负的。
- 用 $\chi^2$ 分布 (卡方分布)。
- 逻辑:构造一个基于平方和的区间。
场景 D:比较两个总体的方差 (比如:机器A和机器B谁更稳?)
- 用 F 分布。
- 逻辑:看 $\frac{S_A^2}{S_B^2}$ 这个比值是不是接近 1。
总结:推断统计的思维导图
复习的时候,按这个顺序思考,就不会乱:
- 目的:用样本估总体。
- 方法:先点估计(给个基准数),再区间估计(给个范围)。
- 构造区间:
$$ \text{结果} = \text{点估计} \pm \text{系数} \times \text{标准误} $$ - 确定系数(找分布):
- 你要算平均值吗?
- 知道 $\sigma$ 吗? $\to$ Z
- 不知道 $\sigma$ 且样本小? $\to$ t
- 你要算**波动(方差)**吗? $\to$ $\chi^2$
- 你要比波动吗? $\to$ F
- 你要算平均值吗?
- 确定范围:
- 看置信水平 ($1-\alpha$),通常是 95%。
这就是推断统计的完整逻辑闭环。所有的公式变化,都是在这个框架里换不同的零件而已。现在对这三大分布的“分工”是不是清晰点了?
统计学最忌讳的就是“死记公式”。如果你只背公式,考试时只要题目换个马甲(比如把“灯泡寿命”换成“电池续航”),你立刻就懵了。
要摆脱“套公式”的感觉,我们需要建立**“诊断思维”**。就像医生看病一样,先看症状,再开药方(选公式)。
我们来解剖它们,看看在拿到题目的一瞬间,大脑是如何判断该用哪个公式的。
第一局:这是“上帝视角”还是“凡人视角”?(Z vs t)
请看两个例题。它们看起来都是求“平均值的置信区间”,但解法完全不同。
案例 A:袋装食品重量
题目核心信息:
- 抽取 $n=25$ 袋。
- 已知“总体标准差为 10克”。
- 求 95% 置信区间。
-
诊断过程(大脑独白):
- Step 1:我要估什么? $\to$ 平均重量(总体均值 $\mu$)。
- Step 2:我看得到上帝视角的真理吗? $\to$ 题目说了“总体标准差为10”。
- Step 3:判决! 既然知道了总体标准差($\sigma$),这就是上帝视角。不管样本量是多是少(虽然25<30),只要 $\sigma$ 已知,直接用最完美的 Z分布。
-
开药方(公式):
$$ \bar{x} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}} $$- $\sigma = 10$(直接代入,不用算样本方差)。
案例 B:灯泡使用寿命
题目核心信息:
- 抽取 $n=16$ 个灯泡。
- 数据列了一堆(1510, 1450…),没提总体标准差。
- 求 95% 置信区间。
-
诊断过程(大脑独白):
- Step 1:我要估什么? $\to$ 平均寿命(总体均值 $\mu$)。
- Step 2:我看得到上帝视角的真理吗? $\to$ 题目没给 $\sigma$。我手里只有这16个烂数据。
- Step 3:样本够大吗? $\to$ $n=16$,小于30,属于小样本。
- Step 4:判决! 没有上帝视角($\sigma$未知),样本又少(穷),只能用宽容度更高的 t分布。
-
开药方(公式):
$$ \bar{x} \pm t_{\alpha/2}(n-1) \frac{s}{\sqrt{n}} $$- 注意点:这里公式里是 $s$(样本标准差),你需要按计算器先算出这16个数的标准差 $s=24.77$。
- 查表:查的是 $t$ 表,自由度是 $16-1=15$。
💡 总结:
- 看到“总体标准差” $\to$ Z (不管n大小)
- 没看到“总体”,且 $n<30$ $\to$ t
- 没看到“总体”,但 $n>30$ $\to$ Z (因为大样本下 t 和 Z 差不多,大部分教材允许用 Z)
第二局:两个世界怎么比?(双样本均值之差)
这是考试中最复杂的公式(看起来很吓人),但逻辑很简单。
案例 C:两个学校的分数差异
场景:你想知道A校和B校的学生,平均分差多少?
- A校抽46人,均分86,方差$S_1$。
- B校抽33人,均分78,方差$S_2$。
-
诊断过程(大脑独白):
- Step 1:目标是什么? $\to$ 找差距 ($\mu_1 - \mu_2$)。
- Step 2:样本是独立的吗? $\to$ 是的,A校学生和B校学生没关系(如果是同一个学生补课前后的成绩,那就是“配对样本”,公式不一样,但这里是独立)。
- Step 3:方差(波动)一样吗? $\to$
- 情况1(图4公式下半部分 $S_p^2$):如果我们假设两个学校虽然平均分不同,但学生水平参差不齐的程度(方差)是一样的($\sigma_1^2 = \sigma_2^2$)。
- 判决:既然方差一样,那不如把两组数据倒进一个大池子里算一个“混合方差”(Pooled Variance, $S_p^2$)。这样算得更准。
- 情况2(图4公式上半部分 $v$):如果A校是普通中学(分化大),B校是精英中学(都很强,分化小),方差明显不同($\sigma_1^2 \ne \sigma_2^2$)。
- 判决:不能混合,必须用那个超级复杂的自由度公式(Satterthwaite近似)。
-
考试技巧:
- 通常题目会告诉你“假设两总体方差相等”。看到这句话,马上反应:用混合方差 $S_p^2$ 的 t 检验公式。就是笔记里写着 $n_1+n_2-2$ 自由度的那个。
第三局:老板要多准?(样本量的确定)
这通常是填空题或第一道大题。
案例 D:倒推人数
题目:要做市场调查,要求误差不超过 400元 ($E=400$),标准差约为 2000元 ($\sigma=2000$),置信水平 95% ($Z=1.96$)。问要抽多少人?
-
逻辑(不是背公式,是解方程):
我们知道误差公式是:
$$ E = Z \times \frac{\sigma}{\sqrt{n}} $$
老板限定了 $E$,让你求 $n$。直接移项:
$$ \sqrt{n} = \frac{Z \times \sigma}{E} \implies n = \frac{Z^2 \sigma^2}{E^2} $$ -
必须要懂的“坑”:进位取整
- 你看笔记里算出来 $n = 96.04$。
- 能取 96 吗? 哪怕是 96.0001,也要取 97。
- 为什么? 因为样本越多,误差越小。如果是 96人,误差刚好比 400 稍微大了一丢丢(比如 400.1元),就不符合老板要求了。所以必须向上取整。
🔥 模拟实战:现在轮到你了
我不给答案,你根据上面的逻辑,判断下面三个场景该用什么公式?(告诉我用 Z 还是 t,还是其他?)
练习 1:大选预测
某报社想预测A候选人的支持率。随机采访了 1000 位市民 ($n=1000$),其中 550 人支持。请构建 95% 的置信区间。
- 你的诊断:这是求均值还是比例?样本量大吗?用什么分布?
练习 2:新药测试
研发了一款新止痛药。在 10 名志愿者身上测试药效持续时间 ($n=10$)。算得样本标准差为 1.5小时。假设药效服从正态分布。求平均药效的 95% 置信区间。
- 你的诊断:知道总体标准差吗?样本量如何?用什么分布?
练习 3:精密仪器
工厂新进一台机器,要求其生产零件的直径波动(方差)不能太大。抽取 20 个零件,想估算这台机器的方差置信区间。
- 你的诊断:研究目标是均值还是方差?用 Z, t, F 还是 $\chi^2$?
参数估计(Parameter Estimation)主要考两类:
- 点估计:用样本均值直接代表总体均值(很简单,通常是送分)。
- 区间估计:给定置信水平(比如 95%),算出一个范围(置信区间)。
这也是考试的重点。我为你准备了三道最有代表性的题目:
- 题目一:求总体均值的区间(未知 $\sigma$,由样本 $s$ 代替,考 $t$ 分布)。
- 题目二:求总体比例的区间(比如支持率、合格率,考 $Z$ 分布)。
- 题目三:概念理解题(很多人的盲区)。
【题目一】总体均值的区间估计($\sigma$ 未知)
场景:某汽车厂为了测试一种新车型的耗油量,随机选取了 16 辆 汽车进行测试。测得每百公里耗油量的平均值为 8.5 升,样本标准差为 0.8 升。
假设耗油量服从正态分布。
已知:
- $t_{0.025}(15) = 2.131$ (对应 95% 置信度)
- $t_{0.025}(16) = 2.120$
问题:
请构建该车型每百公里平均耗油量的 95% 置信区间。
(请写出计算公式和步骤)
【题目二】总体比例的区间估计(大样本)
场景:一家手机厂商想调查用户对其新系统的满意度。他们随机抽查了 400 名 用户,其中有 320 名 用户表示“满意”。
已知:
- $Z_{0.025} = 1.96$ (对应 95% 置信度)
问题:
- 用户满意度的点估计值是多少?
- 请构建全市用户满意度的 95% 置信区间。
【题目三】概念陷阱题(判断题)
场景:关于“95% 置信区间”,以下哪种说法是正确的?(这是考研和期末考最爱挖的坑)
A. 总体均值 $\mu$ 有 95% 的概率落在这个区间内。
B. 如果我们做 100 次抽样,算出 100 个置信区间,大约有 95 个区间会包含真实的总体均值。
C. 这个区间包含了 95% 的样本数据。
🛑 拿出纸笔算一下再看答案!
(提示:区间估计的核心公式就是 “均值 $\pm$ 误差系数 $\times$ 标准误”)
.
.
.
.
.
.
.
.
.
【答案解析】
题目一解析(均值区间)
这是最标准的考试题型:小样本、方差未知 $\rightarrow$ 使用 $t$ 分布。
-
提取信息:
- 样本均值 $\bar{x} = 8.5$
- 样本标准差 $s = 0.8$
- 样本量 $n = 16$ (所以自由度 $df = n-1 = 15$)
- 查表系数:题目给了,用 $t_{0.025}(15) = 2.131$
-
公式:
$$ \bar{x} \pm t_{\alpha/2} \times \frac{s}{\sqrt{n}} $$ -
计算:
- 标准误 (Standard Error) = $\frac{s}{\sqrt{n}} = \frac{0.8}{\sqrt{16}} = \frac{0.8}{4} = 0.2$
- 边际误差 (Margin of Error) = $t \times \text{标准误} = 2.131 \times 0.2 = 0.4262$
- 下限 = $8.5 - 0.4262 = 8.0738$
- 上限 = $8.5 + 0.4262 = 8.9262$
-
结论:
95% 置信区间为 [8.07, 8.93](保留两位小数)。
题目二解析(比例区间)
这是大样本比例估计 $\rightarrow$ 使用 $Z$ 分布。
-
点估计:
- 样本比例 $p = \frac{320}{400} = 0.8$ (即 80%)
-
区间估计公式:
$$ p \pm Z_{\alpha/2} \times \sqrt{\frac{p(1-p)}{n}} $$ -
计算:
- 标准误 = $\sqrt{\frac{0.8 \times 0.2}{400}} = \sqrt{\frac{0.16}{400}} = \sqrt{0.0004} = 0.02$
- 边际误差 = $1.96 \times 0.02 = 0.0392$ (也就是 3.92%)
- 下限 = $0.8 - 0.0392 = 0.7608$
- 上限 = $0.8 + 0.0392 = 0.8392$
-
结论:
95% 置信区间为 [76.08%, 83.92%]。
题目三解析(概念理解)
正确答案是 B。
-
A 是错的(经典陷阱):
总体均值 $\mu$ 是一个固定的数(虽然我们不知道是多少,比如上帝知道它就是 8.5),它要么在区间里,要么不在。它不是随机变量,没有“跑来跑去”的概率。- 比喻:你在这个房间里(真值),我扔一个圈(区间)去套你。一旦圈扔出去了(区间算出来了),你在里面就在里面,不在就不在,没有概率可言。
-
B 是对的:
95% 指的是方法的可靠性。如果我们反复做这个实验,扔 100 次圈,有 95 次能套中你。 -
C 是错的:
置信区间估计的是参数(均值),而不是包含样本数据。
总结:参数估计解题三部曲
- 看类型:是求“平均值”还是求“百分比”?
- 找公式:
- 平均值用 $\frac{s}{\sqrt{n}}$。如果是小样本($n<30$)查 t表,大样本查 Z表。
- 百分比用 $\sqrt{\frac{p(1-p)}{n}}$,查 Z表。
- 套公式:点估计 $\pm$ 系数 $\times$ 标准误。
这份模拟卷二完全按照你的新要求调整了:
- 计算题:改为方差分析表填空(单因素+双因素),这是考察公式逻辑最直接的方式,也是考试高频题型。
- 材料题:SPSS输出表格全部换成中文版。
请计时90分钟。
管理统计学 期末模拟考试(卷二)
重点突破:方差分析表逻辑 & 中文SPSS解读
一、单项选择题(每题1.5分,共18题,27分)
-
如果在假设检验中,我们要检验“某产品的次品率是否低于2%”,原假设$H_0$和备择假设$H_1$应设立为:
A. $H_0: \pi < 0.02, H_1: \pi \ge 0.02$
B. $H_0: \pi \ge 0.02, H_1: \pi < 0.02$
C. $H_0: \pi = 0.02, H_1: \pi \ne 0.02$
D. $H_0: \pi \le 0.02, H_1: \pi > 0.02$ -
方差分析(ANOVA)中,$F$统计量的定义是:
A. 组间均方 / 组内均方 ($MSA / MSE$)
B. 组内均方 / 组间均方 ($MSE / MSA$)
C. 组间平方和 / 组内平方和 ($SSA / SSE$)
D. 组内平方和 / 组间平方和 ($SSE / SSA$) -
老师上课强调,样本均值的标准误差(Standard Error of Mean)等于:
A. 总体标准差 $\sigma$
B. 样本方差 $S^2$
C. 样本标准差 $S$ 除以样本量的平方根 ($\frac{S}{\sqrt{n}}$)
D. 样本均值 $\bar{x}$ -
下列哪种情况适合使用双因素方差分析?
A. 研究“性别”对“身高”的影响
B. 研究“广告费用”对“销售额”的线性关系
C. 研究“性别”和“学历”两个变量对“工资”的共同影响
D. 研究“城市”和“农村”的人口比例差异 -
在SPSS输出的中文表格中,“显著性”一栏显示的数值通常指的是:
A. $\alpha$ (Alpha)
B. $P$值 (P-value)
C. $F$值
D. 自由度 ($df$) -
如果一个研究中,我们想证明两个分类变量(如“星座”和“性格类型”)是不独立的,应该看卡方检验的P值。如果 $P < 0.05$,说明:
A. 两个变量相互独立,没关系
B. 两个变量之间存在显著的关联
C. 两个变量是正态分布的
D. 无法得出结论 -
关于第一类错误($\alpha$),下列描述最准确的是:
A. 实际上没有区别,但你误以为有区别(拒绝了正确的原假设)
B. 实际上有区别,但你没发现(接受了错误的原假设)
C. 这是一个系统性误差,无法避免
D. 也就是1减去置信水平 -
数据“年级(大一/大二/大三/大四)”属于什么类型的数据?
A. 定类数据 (Nominal) - 无顺序
B. 定序数据 (Ordinal) - 有顺序
C. 间隔数据 (Interval)
D. 比率数据 (Ratio) -
在单因素方差分析中,如果一共有4个组,每组有10个样本,那么组间自由度和组内自由度分别是:
A. 4, 10
B. 3, 40
C. 3, 36
D. 4, 36 -
“中心极限定理”告诉我们,当样本量 $n$ 足够大(通常 $n \ge 30$)时:
A. 总体分布一定是正态的
B. 样本均值的抽样分布近似服从正态分布
C. 样本方差等于总体方差
D. 任何统计检验都不需要了 -
老师提到“维度”类似ER图的属性。如果一张表记录了:学号、姓名、性别、高数分、英语分、体育分。这属于:
A. 1维数据
B. 2维数据
C. 低维度数据
D. 高维度数据(多维) -
下列关于相关系数 $r$ 的说法,错误的是:
A. $r$ 的取值范围是 -1 到 +1
B. $r=0$ 表示两个变量完全没有关系(包括非线性关系)
C. $r > 0$ 表示正相关
D. $r$ 越接近1或-1,线性相关程度越强 -
在假设检验中,如果我们想提高检验的可靠性,降低犯第一类错误的概率,我们应该:
A. 调大显著性水平 $\alpha$(如从0.01调到0.05)
B. 调小显著性水平 $\alpha$(如从0.05调到0.01)
C. 减少样本量
D. 不做任何改变 -
时间序列预测在老师课上提到的主要应用场景是:
A. 医疗诊断
B. 历史文献分析
C. 金融领域(如股票、期货预测)
D. 心理咨询 -
观察法与实验法最本质的区别在于:
A. 样本量的大小
B. 是否使用了计算机
C. 是否有人为的干预(控制变量)
D. 数据的准确性 -
已知某次检验的 $P$ 值为 0.08,显著性水平 $\alpha=0.05$,结论是:
A. 拒绝原假设,差异显著
B. 不拒绝原假设,差异不显著
C. 接受备择假设
D. 实验失败 -
在方差分析中,如果数据不满足方差齐性(Levene检验 $P < 0.05$),严格来说:
A. 不能直接进行标准的方差分析,需要用其他方法或校正
B. 依然可以照常进行,结果完全可信
C. 说明均值一定不相等
D. 说明数据不是正态分布 -
箱线图中,箱子的长度(上四分位数 - 下四分位数)反映了数据的:
A. 集中趋势
B. 离散程度(变异程度)
C. 对称性
D. 样本量
二、判断题(每题1分,共14题,14分)
- 假设检验中,我们总是试图去“推翻”原假设 $H_0$。( )
- 总离差平方和 $SST$ 反映了全部数据偏离总均值的程度。( )
- 如果两个变量相关系数 $r=0.9$,我们可以断定是A导致了B的变化。( )
- 样本量越大,样本均值的标准误差(Standard Error)越小。( )
- 在双因素方差分析中,如果存在交互作用,意味着一个因素对结果的影响依赖于另一个因素的水平。( )
- P值越小,说明反对原假设的证据越强。( )
- 正态分布一定是关于均值对称的。( )
- 在SPSS中,“描述性统计”主要用于推断总体特征,而不是展示样本特征。( )
- 统计量是根据样本算出来的,它是一个随机变量;总体参数是固定的常数。( )
- 左侧检验的拒绝域在分布曲线的右尾。( )
- $F$ 分布是对称分布,可以取负值。( )
- 问卷调查虽然是人去做的,但因为它只是记录现状没有干预,所以属于观察法。( )
- 方差分析表中的 $Sig.$ 其实就是 P值。( )
- 自由度 ($df$) 通常与样本量 $n$ 和组数 $k$ 有关。( )
三、计算题(重点:填表)(共34分)
题目1:单因素方差分析表填空(18分)
某教授想比较3种不同的教学方法(A、B、C)对学生成绩的影响。他共选取了15名学生,每种方法分配5人。
部分计算结果已经填入下表,请利用公式关系补全表格中 (1) 到 (6) 的数值。
(提示:$SST = SSA + SSE$;$F = MSA/MSE$)
| 变差来源 | 平方和 (SS) | 自由度 (df) | 均方 (MS) | F |
|---|---|---|---|---|
| 组间 (因素) | 240 | (1) ______ | (3) ______ | (5) ______ |
| 组内 (误差) | (2) ______ | 12 | 10 | |
| 总计 | 360 | (6) ______ |
思考题(2分):
已知 $F_{0.05}(2, 12) = 3.89$。根据你算出的F值(填空5),你的结论是:__________(填“显著”或“不显著”)。
题目2:双因素方差分析表填空(无交互作用)(16分)
研究“品牌”(3个品牌)和“地区”(4个地区)对销量的影响。数据如下表。请补全 (1) 到 (5)。
| 变差来源 | 平方和 (SS) | 自由度 (df) | 均方 (MS) | F |
|---|---|---|---|---|
| 行因素 (品牌) | 400 | (1) ______ | 200 | (4) ______ |
| 列因素 (地区) | (2) ______ | 3 | 100 | (5) ______ |
| 误差 | 300 | 6 | (3) ______ | |
| 总计 | 1000 | 11 |
四、材料分析解释题(中文版SPSS)(共25分)
背景:某银行想知道“客户等级”(普通卡/金卡/白金卡)对“年度信用卡消费金额”(万元)是否有显著影响。
以下是SPSS输出的中文结果表格:
表1:描述性统计
| 客户等级 | N | 均值 | 标准差 | 标准误差 |
|---|---|---|---|---|
| 普通卡 | 20 | 2.50 | 0.80 | 0.18 |
| 金卡 | 20 | 5.60 | 1.10 | 0.25 |
| 白金卡 | 20 | 12.80 | 2.50 | 0.56 |
| 总计 | 60 | 6.97 | 4.50 | 0.58 |
表2:方差齐性检验
| Levene 统计量 | df1 | df2 | 显著性 (Sig.) |
|---|---|---|---|
| 1.842 | 2 | 57 | 0.168 |
表3:ANOVA (方差分析)
| 平方和 | df | 均方 | F | 显著性 | |
|---|---|---|---|---|---|
| 组间 | 1020.5 | 2 | 510.25 | 150.3 | 0.000 |
| 组内 | 193.5 | 57 | 3.39 | ||
| 总计 | 1214.0 | 59 |
请回答下列问题:
-
数据类型(4分):
- 自变量(因素)是:__________,属于______数据(填数值型或分类)。
- 因变量(观测值)是:__________,属于______数据。
-
假设设立(4分):
- 请用文字或符号写出原假设 $H_0$:__________。
- 请用文字或符号写出备择假设 $H_1$:__________。
-
方差齐性判断(5分):
- 查看表2,显著性(Sig.) = 0.168。
- 这意味着各组的方差是相等的吗?(是/否)
- 理由是:因为 P值 (0.168) _____ 0.05(填大于或小于),所以我们______原假设(填拒绝或不拒绝)。这对后续ANOVA分析是_____(填有利或不利)的。
-
统计结论(6分):
- 查看表3,显著性(Sig.) = 0.000。
- 因为 P值 < 0.05,所以我们决定:__________(拒绝/接受)原假设。
- 结论:不同等级的客户,其年度信用卡消费金额__________(填“有”或“没有”)显著差异。
-
业务洞察(6分):
- 结合**表1(描述性统计)**的均值数据,哪种卡的客户消费能力最强?
- 如果你是银行经理,根据这个分析结果,你会重点把促销资源投放在哪个群体?为什么?
🛑 做完后再看答案解析 🛑
.
.
.
.
.
.
模拟卷二 参考答案与解析
一、单项选择题
- B
- 解析:题目是“低于”($<$),没等号,放入$H_1$。所以$H_1: \pi < 0.02$。剩下的$H_0: \pi \ge 0.02$。
- A
- 解析:公式 $F = MSA / MSE$。
- C
- 解析:老师强调点。标准误差 = $S / \sqrt{n}$。
- C
- 解析:两个分类变量(性别、学历)影响一个数值变量(工资)。
- B
- 解析:中文SPSS的“显著性”就是P值 (Sig)。
- B
- 解析:$P < 0.05$ 拒绝独立的原假设 $\rightarrow$ 有关联。
- A
- 解析:弃真。本来没区别($H_0$真),你说有区别(拒了)。
- B
- 解析:大一到大四是有顺序的分类数据。
- C
- 解析:组数 $k=4$,组间 $df = 4-1=3$。总人数 $n=40$,组内 $df = 40-4=36$。
- B
- 解析:中心极限定理是关于样本均值分布的。
- D
- 解析:属性多=高维度。
- B
- 解析:$r=0$ 只能说明无线性关系,可能有曲线关系。
- B
- 解析:$\alpha$ 就是犯第一类错误的概率。想降低它,就调小 $\alpha$。
- C
- 解析:老师上课原话。
- C
- 解析:实验法有人为控制/干预。
- B
- 解析:$0.08 > 0.05$,不显著,不拒绝。
- A
- 解析:方差分析前提是方差齐性。如果不齐,标准方法结果不可靠。
- B
- 解析:箱子越长,中间50%的数据越分散。
二、判断题
- T (反证法思维)
- T
- F (相关 $\ne$ 因果)
- T (分母 $\sqrt{n}$ 变大,误差变小)
- T (交互作用定义)
- T (P越小越显著)
- T
- F (描述统计是展示样本,推断统计才是推断总体)
- T (P82页概念)
- F (左侧检验拒绝域在左尾)
- F (F值是平方和的比值,永远非负)
- T (老师强调的坑点)
- T
- T
三、计算题(填表解析)
题目1:单因素方差分析
- 逻辑链:
- 自由度:
- $n=15, k=3$。
- (1) 组间 $df = k-1 = 3-1 = \mathbf{2}$。
- (6) 总 $df = n-1 = 15-1 = \mathbf{14}$。(也可以通过 $2+12=14$ 验证)。
- 平方和:
- (2) $SSE = MS_{error} \times df_{error} = 10 \times 12 = \mathbf{120}$。
- 或者用 $SST - SSA = 360 - 240 = 120$。
- 均方:
- (3) $MSA = SSA / df_{between} = 240 / 2 = \mathbf{120}$。
- F值:
- (5) $F = MSA / MSE = 120 / 10 = \mathbf{12}$。
- 自由度:
- 思考题结论:
- $12 > 3.89$,所以是 显著。
题目2:双因素方差分析
- 逻辑链:
- 自由度:
- (1) 行因素(品牌):$MSA = SSA / df$ $\rightarrow$ $200 = 400 / df$ $\rightarrow$ $df = \mathbf{2}$。
- 平方和:
- (2) 列因素(地区):$SSA_{col} = MS \times df = 100 \times 3 = \mathbf{300}$。
- 均方(误差):
- (3) $MSE = SSE / df_{error} = 300 / 6 = \mathbf{50}$。
- F值:
- (4) 行F值 = $MS_{row} / MSE = 200 / 50 = \mathbf{4}$。
- (5) 列F值 = $MS_{col} / MSE = 100 / 50 = \mathbf{2}$。
- 自由度:
四、材料分析解释题
- 数据类型:
- 客户等级,分类数据。
- 消费金额,数值型数据。
- 假设:
- $H_0$: $\mu_{普通} = \mu_{金卡} = \mu_{白金}$ (三种卡均值相等)。
- $H_1$: 三种卡的均值不全相等。
- 方差齐性:
- 是(相等)。
- 理由:P值 (0.168) 大于 0.05,所以我们 不拒绝 原假设。这对分析是 有利 的(满足了前提条件)。
- 统计结论:
- 拒绝 原假设。
- 有 显著差异。
- 业务洞察:
- 白金卡最强(均值12.80万 >> 5.60 >> 2.50)。
- 建议:重点投放白金卡客户。因为这部分客户虽然人数一样多,但人均贡献的消费额远超其他群体,ROI(投资回报率)可能更高;或者针对金卡客户进行升级营销。




