与开通之初“一票难求”的火爆相比,京沪高铁多个曾经抢手的车次都有大量余票,网友争先在微博上传的高铁“空椅子”照片
总结上述引起争论的统计数据有两个共同点:其一,权威部门经过科学方法统计出的数据是否真实?是的。其二,这些数据与民众普遍、直接的生活体验是否符合?不符合。科学松鼠会曾在一份研究报告中为读者梳理了造成统计数据无法与生活实际对照的原因。
相关不等于因果,数据本身并不支持所证明的问题
首先最容易设置的陷阱就是把相关说成因果。一般在统计上关心的两种关系是因果和相关,前者例如缺水导致歉收,后者则相对复杂,比如身高越高体重相应越重,吃高脂肪食物越多,保持健康的几率越小等等。要强调的是,这些关系并不是因果关系,并没有足够证据表明其中一个变量的变化导致了另一个变量的变化。
2011年第一季度,中国GDP同比增长为9.7%,相比去年一季度11.9%的增速有所回落,就有分析认为,这是汽车和住房市场调控产生的影响,但其实经济增速放缓与宏观调控仅仅具有相关性,而不是绝对的因果。世界上有联系的事物甚多,但确定因果关系却需慎而又慎。
不同部门、不同地区就同一问题所作的统计数据往往有很大差异甚至相对立,这种现象不仅困扰着民众,也困扰着决策层
抽样数据代表谁?民意调查因样本构成的偏差常常成了“伪民意”
统计数字误导最常见来自抽样问题,首先要保证一定的样本容量。另一方面,样本能很好的代表总体,避免调查受到社会倾向的影响,例如,恐怕很少有人愿意填写问卷承认自己歧视农民工,但实际言行显然是另一回事。
网上常见的所谓民意调查其结果是值得存疑,其原因就在于样本构成大有问题。某网站将调查放出,最可能看到这个调查的是这个网站的常客;某些话题更能引发人的兴趣,有些则只是很少的人关心。这都会导致最终参加调查的人是一个有偏的样本。结论代表了这些人群,却不能推广到全体。
此外还要特别注意平均数这个危险概念,这类计算方法总是容易受到极端数据的影响。回忆一下小学时老师对一个差生拉下全班平均分的愤懑表情。以及一个月收入五万的老板和五名月收入两千元的员工享受着一万元的月平均工资,而这个平均数居然是一个员工月收入的五倍之多。研究表明,只有在处理一些呈现正态分布的形态特点的数据时,平均数才最有意义。
选择性忽略,农民工、私企职工、个体户不在公共政策和数据统计口径中
国家统计局2009年公布的数据称,金融危机影响下中国城镇和农村居民收入增长上半年都超过了GDP。这个数据并不乐观,因为有专家指出统计部门一定程度上存在着“选择性统计”的习惯与癖好。以亿计的农民工,大量在私营企业工作的职工,以及灵活就业者、从事工商业的个体户本来应该在公共政策和数据统计口径中,却并未得到相应的反映和表现,理由有数据普查难度过大、收入状况多元化及变动频率较高等。加拿大华人网 http://www.sinoca.com/