数据的背后2
题1:为什么“在大的空难发生的前夜,有些人会梦见发生一次空难”并不令人奇怪?
答:乍一听到“在大的空难发生的前夜,有些人会梦见发生一次空难”这种消息,总感觉十分神奇,似乎这些人都有特异功能,能够预测到即将发生的事情。但学了数据分析后,这种所谓的“神策”实在是“看似意外,实属正常”。做梦这种事,每个人身上都会发生,只不过做梦梦到空难的概率比较小,而第二天就真的发生空难的概率就更小了。的确,两个概率相乘,最后得到“在大的空难发生的前夜,有些人会梦见发生一次空难”的概率是一个小的离谱的数字。也许你会由此感到“难以置信”。但是世界上有近70亿人口(64.77亿,截止2005年6月),即使一件事情在某地某时某刻发生在某人(比如我做梦梦到明天美航上午纽约飞芝加哥的班机
……(新文秘网https://www.wm114.cn省略557字,正式会员可完整阅读)……
p’=240/400=0.6, σ=(0.6*(1-0.6)/400)^0.5=0.0245。则总体比例为95%的置信区间为(0.6-1.96*0.0245,
0.6+1.96*0.0245),即(0.552,0.648)。
b) 仅仅根据上面一问的答案,我们有95%的把握认为有55.2%——64.8%的学生赞成保持两学期制不变。因为置信区间在50%的上方,那么我们有足够理由相信,大多数学生赞成保持两学期制不变。
c) 现在变成了50人中有30人赞成不变,那么p’=30/50=0.6,σ=(0.6*(1-0.6)/50)^0.5=0.0693。则同理,还是以95%作为标准,那么总体比例为95%的置信区间为(0.6-1.96*0.0693,0.6+1.96*0.0693),即(0.464,0.736)。首先这个范围跨度太大,如果取其下限,也就是差不多46%的话,肯定不能算“大多数”。再说现在的抽样数从400变成了50,单单从相对误差上说(1/50^0.5)/(1/400^0.5)=2.8,也即误差大了近3倍,难以让人信服。
d) 从a) 和c) 所给出的不同区间,我们发现其实样本的大小对于基于样本做决策是还是相当重要的。我们看,σ的值大小除了于p’有关之外,决定其变化的就是样本的大小。在a) 和c)中,p’其实是一样的,但之所以置信区间两者差那么多,关键就在于一个样本是400人,一个样本只有50人。其实道理也很简单,在相同的情况下,样本越大,抽样的得到的结果越有说服力,当然误差也就越小。所以在做相关调查时,样本还是越大越好 (当然前提还是可操作性较强的情形下)。
题3:已知两个总体均值差值的95%置信区间,在下列两种情况中,关于总体均值的差值可以有怎样的结论?
a) 置信区间不包含0;
b) 置信区间包含0.
答:a) 如果置信区间不包含0,那么我们有95%的把握(不是100%!)可以确认,对于这个均值差值的95%置信区间,全体位于0的上方或下方,则其差值都是同号。也就是说,有95%的可能性其中一种总体均值大于另一个总体均值。
b) 因为包含了0,无论是区间大于0的部分远远超过小于0的部分,抑或是小于0的部分远远超过大于0的部分,严格上来说,我们就无法确认实验样本中的差值反映了总体中存在的真正差别,不能排除实际上在总体上的情形与样本中完全相反的情况。那么我们对总体均值的差值不能做出任何判断。
题4:某乳制品厂的一种盒装鲜奶产品的标准重量是495克,但是在生产过程中不可避免地出现超重或重量不足地现象。为了控制产品合格率,随机抽取100盒鲜奶进行检查,测得产品的平均重量为494克,标准差为6克。
试 1)鲜奶产品的标准重量的95%的置信区间;
2)以5%的显著性水平判断这批产品的质量是否合格;
3)给 ……(未完,全文共3095字,当前仅显示1563字,请阅读下面提示信息。
收藏《数据的背后2》)