第一图书网

统计陷阱

[美] 达莱尔·哈夫 上海财经大学出版社
出版时间:

2002-6  

出版社:

上海财经大学出版社  

作者:

[美] 达莱尔·哈夫  

页数:

137  

字数:

88000  

译者:

廖颖林  

Tag标签:

无  

内容概要

《统计陷阱》本书是美国著名的统计学家达菜尔·哈夫的名著。该书自1954年出版至今,多次重印并被译成多国文字,是一本影响深远的经典性著作。《统计陷阱》一书之所以能够历久弥新,是因为其实用性。随着我国经济持续发展,我们将接触到越来越我我的统计数据等等,去粗取精、去集思广益存真、进行鉴现了一些统计语和方法,但作者重说明、轻证明,重文字描述、轻理论推导,并结合活生生的案例,语方轻松诙谐,深入浅出,故即使从培养接触过的统计专业知识的读者也能掌握书中介绍的统计国想和方法。

书籍目录

总序译者的话绪言 第一章 内在有偏的样本 第二章 精心挑选的平均数 第三章 没有披露的数据 第四章 毫无意义的工作 第五章 惊人的统计图形 第六章 平面图形 第七章 不相匹配的资料 第八章 相关关系与因果关系 第九章 如何进行统计操纵 第十章 对统计资料提出的五个问题


图书封面

图书标签Tags

广告

下载页面


统计陷阱 PDF格式下载



启发思维、课堂上很难得能学到的知识;但是很有趣,而且终身受用


读书最大的好处是掌握常识,而我们从小学到大学的学习过程中,仍然欠缺很多常识,包括哲学、心理学、经济学等等。这是教育体系的问题,与整个社会的引导也大有关系。因为大众欠缺常识导致的下一代欠缺常识让人心痛!


薄薄的书,不起眼,但是蛮有意思的。


  读完这本统计数据会撒谎,给我印象最深的应该是那种批判性的思维,在现代中国人们正缺乏这种思维,批判的思维,勇于质疑的思维,某某权威专家说的话往往会对人们起着巨大的影响,比如悟本堂事件引起了对绿豆的疯抢,等等类似的事件有很多。而这本书中用浅显易懂的话,生动的语言揭示了许多统计方面的谎言,又给他人以启示统计数字会撒谎,我们需要带着脑子去思考去批判怀疑。
  我们所在的世界是由媒体所构建的世界,因为我们正是通过媒体来感受了解这个社会。这本书着眼于统计,用浅显易懂的话,生动的语言揭示了许多统计方面的谎言,给他人以启示统计数字会撒谎,我们需要带着脑子去思考去批判怀疑。本书分为10章。前9章是“教你如何利用统计数据达到瞒天过海的手段”即揭示了一些伪装统计资料来达到应有目的的手段。包括“内在有偏的样本 ,精心挑选的平均数, 没有披露的数据, 毫无意义的工作 ,惊人的统计图形平面图形, 不相匹配的资料相关关系与因果关系.,如何进行统计操纵“。第10章是告诉我们如何区分辨别,”怎样凭双眼就能识破虚假的统计资料并揭穿它; 同样重要的是, 如何在具有前述欺骗性的数据海洋中找出可靠有用的资料“。方法是对统计资料提出的五个问题,在寻找这些问题答案的同时,你将避免接受一些不真实的资料。第一谁说的?首先要寻找的是偏差,包括有意识的偏差和无意识的偏差:然后对资料多看一眼究竟是谁做出了结论还是仅仅与权威人士沾边。
  第二 他是如何知道的?注意样本的有偏.是由于选择不当还是由刻意挑选有利的样本造成的。
  第三遗漏了什么? 样本包含了多少案例。这个数据的缺失,特别当信息的来源存在着利害关系时,已足以使你对整件事情提出质疑
  第四是否有人偷换了概念? 分析统计资料时 ,留心从搜集原始资料到形成结论的整个过程中,是否存在着概念的偷换。
  第五这个资料有意义吗?
  总的来说,通过对统计数据的包装美化使数据表现在有利于包装者的方面,这就可能导致对数据的利用来达到满足自己的私欲,我们所看见的世界也许不是真实的世界。那我们应该何去何从,我们需要的是批判质疑的精神多去思考而不是盲从,多去怀疑而不是直接相信,我们看到太多太多无知而盲从的人,希望大家能看看这本书会有用的。还有不喜勿喷。。。。
  


  作者对“行骗”方式的归纳是:
  1.谁说的?
  2.他们是如何知道的?
  3.遗漏了什么?
  4.是否有人偷换了概念?
  5.这个资料有意义吗?
  
  我向从另一个角度来重新归纳一下这个问题:
  1. 样本本身
  2. 选择的数据
  3. 表达形式
  
  首先,从样本来看
  
  第一,样本总量必须足够大时,得出的数据才会有代表性。因为统计规律只有在样本容量足够大时才能表现出概率,如在牙膏作用的案例中,商家会选择12个用户这样的小样本来进行测试;这样经过多次测试,即使本来牙膏没有任何作用也可能因为偶然因素而有一两个成功案例,并且得到的百分比数会因为样本总量太少而显得很大。
  
  第二,即使样本足够大(事实上也很难做到真正的“足够大”,实验所能得到的结果只能无限逼近概率),数据本身也会存在一定的上下波动,存在偶然性,如在智商测试的案例中可能会有正负三的波动;
  
  第三,在得到样本的时候可能存在一定的偏移,而不能代表所有的案例,如:在调查薪水的案例中,愿意填写问卷或者回答问题的大多是薪金水平相对较高的人群;
  
  第四,得到的样本数据很有可能是假的,即被调查者会因为调查时的各种环境因素或者面子问题提供假的数据而影响了样本的真实性。如在测试就业机会的案例中,黑人和白人调查者会得到很不一样的结果。
  
  其次,从选用的数据来看
  
  第一,选择需要的平均数,在不完全的正态分布样本中,平均数,中值和众数的值会相差很多。个人认为主要是平均数和中值的区别,在不完全的正太分布样本中,平均数很有可能因为某个相对很高的值被拉高,如某个亿万富翁在拉高当地收入水平的案例中,而中值在这里相对能更真实的表达当地的收入水平。
  
  第二,故意避开一些有峰值的数据,如在计算年营业额时今年和去年的数据选择三四月作为分界点,而去年的复活节在三月,今年的复活节在四月这样避开某一峰值。
  
  最后,从表达形式来看
  
  第一,最明显的是对图表的伸缩。因为图表可以给人对趋势和对比的数据很直观的印象,但是相同的数据通过改变比例,以及面积和体积的不同表达方式,会让原本2倍的差距让人感觉变成4倍甚至8倍。而这些对于随意的读者是不会发现的。
  
  第二,用文字游戏,最明显的是百分比的不同“单位1”,来达到视觉冲击。如先降价50%,再降价50%,不是降价100%,而是75%的案例,贷款息率6%,说成借100元,还6元的文字游戏,和从康奈尔大学的女性单身率的统计数据并不代表有权威的康奈尔大学做的统计。
  
  第三,将看似有联系,但实际没有因果关系的两个数据放在一起,强硬的将两者联系在一起或者颠倒因果。比如屋顶上的鸽子数和家里的孩子数的案例和健康的人和身上虱子数的案例。
  
  作者的观点是,对于每一个一眼看上去很华丽的数据我们都要保持怀疑的态度,但也不能因此就不相信每一个统计数据。就像不会因为看过一本不好的书就讨厌阅读一样。


   前段时间看到一份数据,说中国人均存款是7万多。新浪微博做了一个热点话题,问“你拖后腿了吗”?如果新浪多点节操,这个话题的相关问题应该是:“你又被平均数据忽悠了吗?”
   互联网带来的信息剧增给我们处理信息的能力提出了新的要求。尤其在中国,太多中国人缺乏批判性思维。获取信息不问信息源,读到媒体公布的数据不问黑白照单全收。
   三尺之冰非一日之寒。我想这和家庭教育与学校教育的耳濡目染有千丝万缕的关系。依中国盛行的教育文化,对于晚辈的期待是对长辈的绝对服从。在学校方面,主要是标准化、制度化的应试教育机制扼杀了儿童的批判思维。
   然而,拥有质疑精神却是一项非常必要的素质,甚至是防被忽悠的重要生活技能。
   就从《统计数字会撒谎》开始吧。一本薄薄的小书,讲的也是“显而易见”的道理。正如常识并非人尽皆知,显而易见的知识也并非那么明显。这些明显而又常常被忽略的统计学的骗术包括:
   一、20世纪四五十年代用电话民调预测美国总统大选结果,结果预测和实际结果大相径庭。因为当时能用上电话的家庭都比较富有,是偏保守的家庭。在一人一票的民主制里,富有阶层可是占少数的。
   二、某女校的女学生有1/3嫁给了学校的老师。不动脑筋的话,你会理所当然认为“哇塞,那岂不是好多?”。可是你猜怎么回事?这个学校只有3个女学生——没错,就一个女学生嫁给了老师而已。
   三、当媒体试图利用二维图表来蛊惑你,你也很可能落入陷阱。只需调整纵坐标的宽度,同样的数据给人带来的直观感受会千差万别。作者甚至还举了一个很弱智的例子,当我们讨论A是B的两倍时,如果以图表作比较,把A的长度变成B的长度的2倍,那么读者会以为其实A是B的8倍!因为人有能力将二维图像转换为三维实物,长度是2倍,宽度是2倍,高度也是2倍呢!
   四、最坑人的就是平均数。就像网友嘲笑的,一个贪官存款100万,一个平民存款1万,平均存款就是50.5万。算术平均数最具欺骗性,明智起见我们还是多参考一下中位数和众数吧。
   五、信息源很重要。利益相关方的调查结果可信度会大打折扣。读到一组数据请询问出处。而且不要被“光环效应”搞得晕头转向。书中提到有一个调查者在康奈尔大学选取了一组样本进行试验,并且在试验结果开头写道:“来自康奈尔大学的研究报告显示……”。除了那些参与者是康奈尔的学生,这个份报告和康奈尔半毛钱关系没有。但是调查人员很狡猾地利用了康奈尔的声望为其报告背书。
   此处省略一万字。
  
   有些翻译还是有问题。比如141页最后,“如果你以每月等额分期还款的形式从银行以6%的利率借了100美元,应支付的利息的3美元。但如果是另一种的6%贷款,有时也称为借100美元还6美元,你就需要偿还前者的两倍即6美元。”3美元的利息是怎么算出来的啊?这种借贷法没听说过啊。
  
   总的说来还是很有价值的一本书,尤其是在中国这种容易轻信、听风就是雨、大众以及媒体从业人员的媒介素养均较为低下的环境里,这书显得太必要了。
  
   我相信质疑精神和智商无关,只是看你愿不愿意克服惰性,少偷一点懒。


  花了不到一天的时间看完了这本书,感觉收获还行,知道了一些利用统计学来欺骗的把戏,最大的收获是以后再看到数据或者是图表,就会多问自己几句“有没有搞混概念啊”,“这个图是不是有欺骗因素啊”“是不是以偏概全了啊”“是不是滥用正相关关系了啊”等等,我觉得读完一本书,不一定是要牢牢记下许多你本不知道的知识点,重点在于它或多或少的改变了你的思维模式,或者说以后你再接触到这本书所侧重的内容时,你会有一种内行人看门道的感觉。


  对于一个学统计学了差不多三年的前社会科学研究生来说,这本书的内容显然挺浅显的;) 不过正是由于浅显易读,而且引用的例证常见于报端,才使这本书的实用性更强。
  推荐给所有想要培养自己“批判性思考能力”的人们!


  直接上最后一页:
   学术结论、实验结果以及报道引用都可能产生偏差,这些偏差可能是测量标准的改动造成的,也可能是不正确的测量方法造成的。
  
   对于相关系数也课题同样的问题:数值是否足够大,从而能解释问题?观察值是否足够多,从而能保证结论的可靠性?
  
   当均值与中位值相差甚远,需要注意那些没有标明类型的平均数。
  
   在分析统计资料时,请留心从搜集原始资料到形成结论的整个过程中,是否存在这概念偷换。
  
   让人印象深刻的精确数据也会与实际情况向左。
  
  
  
  (其实可以看看英文原版,估计不会太难的样子……)


  老实说,草草通读了全文后并未有醍醐灌顶的震撼,作者无非精巧地将统计中骗人的小伎俩,平实幽默而又系统化得展现在读者眼前,至少就笔者而言,恐怕是虽无骗人经验,但这些拙劣而浅薄的伎俩怕是见得多了。受骗上当多了即使成不了骗术大师,也算是个合格的倒霉蛋了。
  
  回忆起当时某某养生专家号称一个苹果等于两碗白米饭,吓得我正在节食减肥的阿姨连苹果都不敢吃了。其理由无非如下,苹果中的果糖和两碗白米饭中的果糖相同,而众所周知糖分会让人长胖,所以减肥者吃一个苹果还不如吃两碗米饭。呵呵。此时米饭中的碳水化合物想必已掩面流泪不止。类似的还有近日又一养生砖家所说,牛奶比可乐不健康得多,这次他比的是脂肪,别忘了可乐中脂肪的含量是0呀,谈脂色变的人们赶快扔掉手中的牛奶投入可乐的怀抱吧!!反正我就是拿我的长和你的宽比了怎么样吧,单位一样就可以了,想要什么结论达不到?
  
  同理还有据某正派主流XX日报,中国去年收缴的违法枪支才16万,人家老美至少有2亿枪支散落民间呢,数字差了6000多倍呢,可想而知天朝治安比人家好得多呢。先不论我们这是一年收缴数量人家是总量,而且人家是明正光大合法登记的,我们这只不过是收缴来的一部分,怕是连中国真正冰山一角都不到。更何况我国除了狂热的枪械爱好者外,哪个守法公民会有配枪的习惯?那这些枪支到底在哪些人手里呢??而美国持枪已是传统,深入民心,相反该问有多少家庭没有持枪。一头老虎口中的虎牙和一头大象口中数十倍大于前者的象牙,你觉得哪个对你的生命安全威胁更大呢???是故,16万和2亿没有可比性,但是!震慑力与感染力的效果已经达到。
  
  因为这些数据说针对的听众并不是我们!对于一个具有基本高中生物知识的人而言,那些营养专家的话根本就是放屁,因为我们能轻易分析出其中数据比较的荒诞之处,可是恰巧这些所谓的专家也根本没有把我们当作预期的受众。对于那些阿姨妈妈而言,那些所谓的糖份脂肪比较已经非常得科学严谨了,而一个苹果等于两碗米饭这个结论又是如此震吓,于是他们不免感叹这个专家好牛逼呀!!所以绿豆汤变得可以治百病,生吞泥鳅可以延年益寿。
  
  你能说那些阿姨妈妈完完全全不懂得数据背后的猫腻?别忘了在菜市场,他们知道过秤时摊贩故意将4.5的单价打成0.45之后计算总价时再相应乘以十倍其中的猫腻。学了九招骗人秘籍的聪明人,你可知道其中的玄妙?
  
  所以当你对数据开始质疑之后,并不代表着你会发现其背后的秘密。正如作者全文最后所举的“176年间密西西比河缩短了242 英里,平均一年1 1/3 英里。任何人也将看到再经过742 年,下密西西比河将变得只有1 3/4 英里长”若非作者指出其中错误,至少对于地理白痴的我而言,实在说不出这份数据荒唐在哪,或者说为什么这个平均值不能推算。
  
  所以,在那些你所不了解的专业领域,若真有一个专家利用高明的统计数据展示给你看一个精美包装的错误结果,恐怕我们所有人也很难比阿姨妈妈们显得更聪明些。看出其如何行骗的前提是你知道他数据中哪里打了马虎眼,可是往往这个前提比归类他的行骗手段更难。真是这样,恐怕也只能博览各家学说,寻求其它与之矛盾的专家著述解疑释惑了。
  
  
  附:上文所说电子秤的秘密其实不难,首先电子秤往往保留两位小数,这里假设有单价3.75元的草莓,你买5斤。正常应是5*3.75=18.75元,而现在通过上述手段,以0.5与0.375过秤,因为只保留两位小数,就变成了0.19也就是19元了。


  一本写得非常通俗易懂的书,即使是对数学对统计非常小白的人都能够轻松的读懂并且明白。在每一章中都穿插非常多的实例,生活化的语言使这本书更加的风趣。
  虽然对于专门做统计的人来说可能是一本非常浅薄的书,但是对于普通人,能够教会我们用理性的眼光来看待充斥在各个消息平台上的统计数据,不要让统计专家利用数据欺骗了我们。


  关于本书,思维导图:
  http://www.douban.com/note/227034902/
  
  在遇到统计数字时,不应不加思考地全盘接受,也不能以最坏的恶意揣测给出统计数字的人,但至少应该理智地分析,问问自己一下几个问题:
  
  1、样本是怎么组成的?
  2、对于结果,有哪些有形的误差,更重要的是有哪些无形的误差?
  3、随机样本是否具有代表性?
  
  4、看到平均数时,首先问问:是什么的评价?包括了哪些人?
  5、分清楚到底是均值、中位数、众数?了解正态分布曲线。
  
  6、是否有遗漏哪些重要的数据
  7、样本的精度:可能误差和标准误差
  
  8、图表的画法是否有故意夸大或缩小之嫌?
  9、图形是否有视觉误差?
  
  10、调查报告搜集的资料是否相关,或者完全不同,只是部分近似?
  11、数据之间的相关性是怎样的?
  


  Chapter 1 内在有偏的样本
  1.一般情况下,邮寄问卷的回收率到5%~10%就已经相当可观了。
  2.根据样本得到的结论不会比样本更精确。
  3.无形的误差与有形误差一样容易破坏样本的可信度。也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。
  4.最基本的样本是随机样本,它是指完全遵循随机原则从总体中选出的样本。总体即形成样本的母体。
  5.随机样本的检验方法是:总体中的每个名字或每个事情是否具有相同的几率被选进样本?
  6.纯随机样本是唯一有足够把握经受统计理论审查的样本。但很多情况下,获得这种样本难度很大并且非常昂贵。所以现在多数使用分层随机抽样。
  7.一般而言,民意调查都带有一定程度的误差。
  
  Chapter 2 精心挑选的平均值
  1.当你被告知某个数是平均数时,除非能说出它的具体种类——均值,中位数,还是众数,否则你对它的具体涵义仍知之甚少。
  2.在处理诸如人类特征的数据时,各种平均数的数值十分接近。
  3.当你看到某个平均收入时,首先问问:是什么的平均?包括了哪些人?
  
  Chapter 3 没有披露的数据
  1.采用严重有偏样本几乎能够产生任何人需要的任何结果。
  2.通常情况下,单凭一个平均数来描述事物过于简单,起不到作用,不管这个平均数是均值还是中位数,也不管平均数的具体类型是否已知。
  
  Chapter 4 毫无意义的作品
  1.在所有抽样研究中都有误差,忽略这些误差将导致一些愚蠢的举动。
  2.只有当差别有意义时才能称之为差别。
  
  Chapter 5 令人惊奇的图形
  1.加深人们对图形印象的方法:
  (1)把图形的底部抹去
  (2)改变横坐标与纵坐标的比例关系。将纵坐标的每一个刻度缩短为原来的1/10即可。
  2.图形比文字更有效,因为图形中不存在任何形容词和副词来破坏它所具有的客观性幻想,而且谁也无法指责你。
  
  Chapter 6 一维图形的滥用
  1.柱状图也具有欺骗性:在描述单一物体时,柱体改变宽度改变的同时,长度也发生变化;在描述三维物体时,物体的体积又不容易进行比较,以上任何一种情况都提醒我们应该对柱状图保留一些怀疑。
  
  Chapter 7 不完全匹配的资料
  1.不完全匹配的资料是一种保证你处在有利位置上的武器,而且屡试不爽。
  
  Chapter 8 相关关系的误解
  1.两个事物之间的关联关系并不能用于说明其中一个将引起另一个的变化
  2.联合变动的一个普遍形式是存在着真实的关系,但却无法确定何为因何为果。有时因果可以不时地交换位置,或者实际上互为因果。
  3.相关显示了一种趋势,而这种趋势通常并不是那种一对一的理想关系。
  
  Chapter 9 如何进行统计操纵
  1.扭曲统计数据的最巧妙方法是利用地图。充斥在地图上的变化,往往隐藏了事实、扭曲了关系。
  2.变换基数还能产生增加折扣的幻觉
  3.将一些看似直接相加却不能这样操作的事情加在一起,会产生大量的欺骗和隐藏
  4.百分位数也同样具有欺骗性
  
  Chapter10 如何反驳统计资料
  1.首先要寻找偏差。这种偏差的表达形式可能是错误的陈述,可能是不易被揭穿的含糊之词,还可能是可以挑选适合的数据,而将不合适的数据放在一边。
  2.使用不正确的测量方式也是产生偏差的原因之一。
  3.当某个权威人士被引用时,请弄清楚到底资料的内容是权威的,还是仅仅车上了权威人士的大名
  4.看样本是否有偏。观察值是否足够多,从而保证结论的可靠性
  5.当均值与中位数相差甚远时,需要注意那些没有标明类型的平均数
  6.有时仅给出百分数却缺少原始数据也能造成欺骗
  7.在分析统计资料时,请留心从搜集原始资料,到形成结论的整个过程中,是否存在着概念的偷换。
  8.请记住:到目前为止的趋势都是事实,而未来的趋势只不过是受教育者的猜测。该方法暗含“其他所有条件都相同”以及“现有趋势保持下去”的前提。但事实上,条件总是在变化。
  


   现在社会,人对数据相对比较高的敏感性,而且偏向于认为既然统计出来的,数据的可信度应该是比较高的,小数点什么的给人一种严谨和无懈可击的感觉。
   出现一个统计数字,我们要思考:
   1.我们要考虑信息来源,这些数据是怎么获得的?是权威机构提供的还是假借权威机构之名自己得出结论?具体的操作过程中会不会对被调查者或样本有一定的偏向性?会不会有其他因素影响?统计要有整体概念,不能局限某一平均数值,要了解整体数据的分布。
   2.信息发布者的动机与信息是否有相关性?数据是否跟发布者利益相关?有相关的话动过手脚也是正常的,统计数值无非是为了我们已有的认知服务好去引导大众,而且数字容易让读者上瘾,让读者有一种了解事实的错觉。
   3.信息的语义问题,即统计上的概念偷换,语义不一样的,统计也会给人一种很大的错觉
   4.信息的完整性。比如小样本的统计根本没有代表性,因为信息不够完整。
   猛然间觉得自己每天看那么多新闻中的数据,尤其是国家政府发布的或者不正规机构发布的,或者杂志媒体自己杜撰调查的,原来自己被骗了很多


  第一章 内部有偏的样本
  
  人们往往对问卷不会说真话。
  
  很多统计数字建立在统计者永远无法发现的事实上。
  
  要仔细审查整个抽样的过程,一定要特别注意样本所代表的范围,不要想当然地将范围扩大或缩小
  
  最基本的样本是随机样本,指完全遵循随机的原则从总体中选出样本。
  
  随机样本的检验标准是:总体中的每个事物是否具有相同的几率被选进样本?
  
  一般而言,民意调查都带有一定的偏差。民意调查最终将演变为一场和误差的遭遇战,而这场战斗永远不会取得胜利。
  
  在看到“67%的美国人反对”时,应保留这样一个问题:67%的哪些美国人?
  
  由谁组成调查人员也会对调查结果产生微妙的影响。人们在接受调查时有迎合对方说好话的倾向。同时,不同的调查人员也会选择不同的调查对象。
  
  第二章 精心挑选的平均数
  
  当读到“平均数”时,一定要弄清楚是算术平均数、中位数还是众数(数字序列中出现次数最多的数)
  
  在处理诸如人类特征的数据时,不同的平均数将大致相等,因为这些数据的分布十分接近正态分布。而在描述他们的经济收入时就不是如此了,它的算术平均值和中位数离得很远。
  
  当你看到一个平均数时,首先问问:是什么的平均?包括了什么?
  
  对于那些未加解释的平均数我们根本不用太在意。
  
  第三章 没有披露的数据
  
  不充分样本
  
  显著性方法:反应测验数据以多大的可能性代表实际结论而不代表那些由于机遇产生的其他结论的方法。
  显著程度通常用概率表示,通常5%的显著程度是最低要求,有时需要更精确的1%的显著程度,即意味着以99%的概率保证该结果是真实的。
  
  另一类被遗漏的数据是表明事物整体范围的全距和与平均数偏离水平的数据。
  通常情况下,平均数----不管是否指明均值或中位数,都由于过于简单而导致无用。
  不要只看平均数,而应了解数值的变化范围。
  
  将“正常的”与“期望的”混为一谈使事情变得更糟。“正常的”并不等于“好的”、“对的”、“应该如此的”。
  
  第四章 毫无意义的工作
  
  对待抽样结果应注意它的范围,其值不应该是一个数值,而是一个带有误差的范围,如100+-3
  
  只有当差别有意义时才能称之为差别。
  
  第五章 惊人的统计图形
  
  陷阱1:在折线图中,将图形的底部抹去,而夸大变化趋势。
  陷阱2:在折线图中,改变横轴与纵轴刻度的比例关系,将纵轴的每一个刻度缩减为原来的十分之一,而夸大变化趋势。
  
  第六章 平面图形
  
  不要使用形象化图形。形象化图形的面积或体积之比往往与其所代表的数值之比并不相同。
  第七章 不相匹配的资料
  如果你想证明某事,却发现没有能力办到,那么试着解释其它事情并假装它们是一回事。
  
  当遇到比率数字时,一定要弄清楚对比的对象是什么,而且要了解两个对象的可比性。
  
  要弄清绝对值和相对值,许多情况下不能直接用绝对值进行比较。
  
  销售利润率和投资回收率不是一码事。投资利润率,即用税前利润除以总投资,主要是看单位投资能产出多少利润;销售利润率,即有税前利润除以销售收入,看单位销售能得到多少利润。
  
  第八章 相关关系和因果关系
  
  陷阱:如果B总是紧跟着A出现,那么A一定导致B。
  
  所谓“相关”,往往是通过“相关系数”这个精确的数据来证明两件事物间具有关联关系。它可以有多种不同的类型:
  1. 一种相关是通过机缘巧合而产生的。
  2. 利用小样本,任何两个你能想到的事件或两组特性之间都能建立显著的相关。
  3. 联合变动的一种普遍形式是存在着真实的关系,但无法确定何为因,何为果。有时,因果可以不断地交换地位,或者可以同为因果。
  4. 最具有戏剧性的相关是所有变量之间没有任何影响,却存在着显著的相关。此时只能证明变量之间存在着相关关系,但是否存在因果关系仍是未知数。
  
  另一个需要留意的是,超过了推断相关关系的数据范围而得出的结论。正相关到了一定的程度之后会急剧地转化为负相关。
  
  相关显示了一种趋势,而这种趋势并不是那种理想的一对一关系。
  请时刻记住,即使某种相关关系是真实的,并有真实的因果关系,仍旧不能因此做出行为决策。
  
  第九章 如何进行统计操纵
  
  扭曲统计数据最巧妙的方法是利用地图。
  
  百分数也给误解提供了肥沃的土壤。和小数一样,它也能为不确切的事物蒙上精确的面纱。
  任何建立在小样本容量上的百分数都可能产生误导,直接给出具体数值的大小将更有价值。如果再将百分数表示成小数点后几位的小数形式,你可能正从愚蠢迈向故意欺诈。
  
  变换基数能增加折扣的幻觉,当商人向你提供一份“50%折上再20%折”的报价单时,那并不意味着70%的折扣,而只是60%,因为后20%折扣是用五折后的价格计算的。
  
  将一些看似能直接相加但却不能如此操作的事情加在一起会产生大量的欺骗和隐瞒。允许所有百分数直接相加的逻辑将得到各种奇谈怪论。
  
  第十章 对统计资料提出的五个问题
  
  一、谁说的?
  首先要寻找偏差。
  有意识的偏差:错误的陈述、不易被揭穿的含糊之词、刻意挑选合适的数据而将不合适的数据放在一边、测量标准的改动、不正确的测量方法(如不加说明的“平均数”)
  无意识的偏差:通常更危险。
  所谓“权威人士”掩盖了真实的资料来源。当某个权威人士被引用时,请弄清楚到底资料的内容是权威的,还是仅仅与权威人士沾边。
  
  二、他是如何知道的?
  注意样本的有偏,是由于选择不当,还是由刻意挑选有利的样本造成的?
  样本是否足够大到能够保证结论值得信赖?
  对于相关系数:数值是否足够大从而能说明问题?案例是否足够多?是否具有一定的显著性?
  
  三、遗漏了什么?
  如果无法了解样本中包含了多少案例,已足以使你对整件事情提出质疑。
  对一个没有经过可信度(可能误差、标准误差)检验的相关也不用太当真。
  当均值与中位数相差甚远时,注意那些没有标明类型的平均数。
  很多数据由于缺乏比较而变得没有意义。
  有时仅给出百分数而缺少原始数据也能造成欺骗。
  当看到一个指数时,你或许会觉得遗漏了什么。巧妙之处在于基期,一个经过挑选的基期将会扭曲事实。
  有时文章中遗漏了引起变化的原因,这容易让读者认为其它的因素才应对变化负责。
  
  四、是否有人偷换了概念?
  前后的统计口径是否一致
  如果数据是建立在人们的口头回答(即使有一些听上去十分客观)基础之上,将发生许多怪事。
  将“相关关系”偷换成“因果关系”
  
  五、这个资料有意义吗?
  当所接触到的资料是建立在未经证实的假设基础之上时,你可以发问“这个资料有意义吗?”
  许多统计资料一眼就可以看出是错的,这是因为奇妙的数据与感觉不符。
  让人印象深刻的精确数据也会与现实相左。
  当看到用外推法计算出来的数据和图表时,请记住这点:到目前为止所有的趋势都是事实,而未来的趋势只不过是受教育者的猜测。该方法暗含“其它所有条件都相同”以及“现有趋势将继续下去”的前提,但实际上条件总是在变化的。


  
  在信息爆炸的时代,各种信息良莠不齐,真伪同在,媒体和宣传机构越来越重视使用统计来传递信息。但是大量的统计数据,统计资料由于主,客观的原因被滥用,很难起到描述事实,传递有效信息的作用,反而会对读者形成误导。
  
  一 内在有偏的样本
  1 一个以抽样为基础的报告如果要有价值,就必须使用具有代表性的样本,并且排除各种偏差。
  2 无形的误差和有形的误差一样容易破坏样本的可信度。即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。
  3 以《时代》杂志报道的耶鲁毕业生年薪25111美元为例,问卷的回收率,答题人的诚实度,样本是否具有代表性决定了数据本身的科学性,可信性!
  4 一条河流永远不可能高于它的源头,但是在河的某处藏有水电站,却可以做到。对于样本研究后得到的结论不会好于样本本身。当数据经过层层统计处理,最后简化成一个小数形式的平均数时,结论似乎被确定的光环所笼罩,但是只要再仔细留心整个抽样过程。光环就会破灭。
  5 随机样本 是指完全遵循随机的原则从总体(调查时在场的所有的人)中选出的样本,其标准为:总体中的每个名字或事物是否具有相同的几率被选进样本?
  6 相对于随机抽样的难度大,经济成本高而言,选择使用分层抽样:把总体按照事先已知的优势比例划分成不同的组。
  7 统计是与误差的遭遇战。样本有偏的趋势可以自动地操纵结果,使其变的扭曲。
  二 精心挑选的平均数
  平均数:
  均值:个体总数的值(比如收入)的总和除以个体总数
  中位数:一半家庭的收入超过3500 美元,而另一半家庭的收入低于3500美元。
  众数:在所有家庭收入序列中出现次数最多的数值,就是众数!年收入5000 的家庭总数远大于其他收入的家庭,则众数为500 美元
  2 公司财报中的员工平均收入多半是 均值,比如一个80w 两个 10 w 年薪的人 平均 年薪 33w 显然这样的均值是无意义的。
  
  三 没有披漏的数据
  1使用小样本的重要性在于:在大样本使用中,任何由于机遇产生的差异都是微不足道的,不足以作为广告标题。 采用不充分样本得出的结论显然具有误导性。
  
  四 毫无意义的工作
  五 惊人的统计图形
  1 统计图形代替表格中的文字表现直观的趋势发展。
  2 统计图形中的表格的基本单位的差异可以使图形趋势表现出惊人的效果。
  六 平面图形
  七 不相匹配的资料
  使用统计数据报道一个事件本身比如 1952年“小儿麻痹症之年”,忽略了当时的客观因素(1有更多易感染的孩子2对麻痹症有更深的认识,积极到医院就医3经济刺激,从国家婴儿麻痹基金获取经济帮助)就会导致基于统计数据的报道是真。
  八 相关关系与因果关系
  1 相关谬误:如果B紧跟着A出现,那边A一定导致B。然而 更大的可能性是两个因素并不互为因果关系,而同为第三个因素的产物。
  2 相关是所有变量相互间没有任何影响,却存在着显著的相关。比如抽烟和成绩不好这样的例子。
  3 学历的高低和赚钱的多少的相关性!
  九 如何进行统计操作
  
  十 对统计资料的五个提问
   1 谁说的? 寻找偏差:有意识的偏差和无意识的偏差
   2 如何知道?
   3 遗漏了什么?
   4 是否偷换了概念?
   5 资料是否具有意义?


  看了“学会批评性思维”这本书,再看”统计数字会撒谎“,觉得与其中部分章节有异曲同工之处
  
  这两本书都用实例说明了统计数字再商业调查中的各种不完全信息的用法带给用户的错觉
  
  从这些事例中,可以收获很多,比如很多网上的调查结果, 仅看结果是非常诱人的,但是结果获得的过程、展示方式更值得我们用批判的思维去对待
  
  心得1:随机样本获取的检验标准是:总体中的每个名字或事物是否具有相同的几率被选进样本
  心得2:显著性检验方法是一种反映测验数据以多大可能性代表实际结论而不代表那些由于机遇产生的其他结论的方法
  心得3:正常的智商不应该只是100这样一个数值,而应是一个范围。如果两组数据相差接近,就没有比较的意义
  心得4:利用小样本,任意两个你能想到的事件或两组特性之间都能建立显著相关
  心得5:几乎所有人都可以标榜之间在某个领域获得了第一,如果没有特别住处某个领域。从这条让我想到了今天在微博上看到的一天新闻:互联网中的各种第一,例如第一视频网站搜狐,第一门户网站新浪等等


  前段时间,我负责完成一份新人的素质情况分析。这是三年来我第二次干这事了,做得更从容,更轻松,也更“漂亮”,但却更没有价值。何出此言?因为这份报告是杜撰出来的,说是杜撰也不确切,因为它的数据基本是真的,问题在于它分析的着眼点和它的说法。
  首先,我要如实的汇报一下为什么我要杜撰。原因很简单,上面想要尽快拿到一份“好看”的报告。因为催得紧,我只好提前设想一些新人的特征,然后在设计问卷时就有意识地加到问卷当中。报告也是在新人到之前就大致完成了的,除了差异很大的几点(比如,原来以为高学历会像往年一样占很高比例。其实,由于前几年吸引高学历人才的政策没有落实,致使今年招收的新人学历层次普遍回落)几乎没有变化。其实也不是我偷懒,找出以前的报告改改。问卷是重新设计的,报告也几乎是全新的。我闭门造车的原因只是来源于第一次的经验:上头很有“统筹规划”能力,说“你可以分批搞(调查)嘛,后面的又不影响前面的,工作不就可以并行了!”他们总是在新人刚到齐就开始催报告,好像报告就只是统计几个数字,不需要花时间分析似的。另外,工作量很大,容不得我等到数据出来再分析。新人总数过千,而为了报告“漂亮”需要兼顾各个方面,问卷题量是历年来最大的(我设计了近50个客观题(虽然问卷还是比较全面的,但后来完善报告时还是有点小遗憾:没有设计主观题,致使报告缺乏个案,最后只得问了几个名字杜撰上去)。当然也是有点小私心的,现在手下有人,统计不用我弄,而如果问卷哪个方面没有涉及,我可是要挨收拾的。我干过那活,心里有点过意不去)。做好模板的另一个好处就是可以减少统计量。我会有针对性的去统计一些问题,只有拿到“证据”就行了。
  为什么说这份报告没什么价值呢?最重要的一点,它早已由上面定好调了。按理说,调查不能不预先设想,毫无侧重,但上面给我定的调是:总体情况“只能”不断提高,存在的问题“只能”不痛不痒。比如前面提到的政策不落实的分析,我就不能写进报告吧。我所要做的不过是挑选一些数据和实例充实、完善上头的判断。其实,我也知道不完全是上头的意思,因为上头总还有上头。其次,统计也不准。在填写问卷的环节,总会有这样那样的情况致使新人不敢如实填写。我跟同事开玩笑说过“你信不信,就算是不记名,我还是能把那些‘刺头’的身份找出来”。不是我虚夸,问卷中的基本信息和问题设置会暴露很多信息,更何况它是“刺头”。除了原始资料不准确,在统计环节,我们也只统计了一半。只有少数客观情况(比如:籍贯、性别、学历、户籍情况、学历层次等),才去认真查了准确数。虽然统计的样本量也算够了,但样本是有偏的。因为新人是一个省一批到的,我们只统计了前面几批,而不是每个地方抽出一部分来。最后在审核环节,有些数据领导觉得高了(比如性经历),随意调低,或者换个说法(比如,2%换成“个别”,61%说是“绝大部分”)。总之,这份报告就像那句广为流传的“团结的、胜利的大会”一样,是一份“高质量的、论点新颖、论据充分、个案详实”的报告。
  最后,回到这本书上来。我一直认为,比较只能在两个单一变量间进行,就像你可以说3 > 2,但你不可以说(3, 2) > (2, 3)。一旦涉及到现实世界,就没这么好区分比较的是不是单一变量了。但你还是有一件不那么准确的武器——常识。就像不管某人罗列怎样的数据证明房市降温,可依旧买不起房的你半个字也不会相信一样,警惕那些虚伪的统计量,不要尽信“科学”的幌子。


   每天翻开报纸,总是看到很多充满着数据的报道,看似用数据说话,非常可靠,然而达莱尔.哈夫告诉你,小心别被忽悠了,里面的门道多着呢!没错,这就是用数据说谎之道。《统计陷阱》英文原版叫做《How to Lie with Statistics》,其实作者不是教你怎么用统计来撒谎,而是教你怎么识别这些谎言。是面向大众的一本入门书籍,里面没有复杂的统计学知识,也没有头痛的各种图表等,简单易懂,例子非常有趣。
   应用书中的知识,也来看看近期看到的一些报道吧。
   香港新闻:港大民意调查机构做的一个调查发现,行政长官候选人梁振英的支持率远高于唐英年,一个52.x%,一个26.x%,高了20多个百分点。看这个头条还真的觉得唐英年民望不行了。鉴于之前一般的风声都比较多人支持唐英年。好奇的tvb记者试着随便找了些行人支持谁,结果基本上说的都是唐英年。于是就很有意思了。一个调查的结果是否可靠会受到很多情况的影响。嗯,第一章名字叫做:内在有偏的样本。没错,做民意调查首先要抽样,抽样很重要,非常重要。如果抽样的样本数量不够多就不具有代表性(记者路边的采访样本更少,所以更加不具有代表性)。而且抽样一般要讲究随机抽样,如果无法随机抽样,那么按照分层抽样,分几层,每层比例占多少,每层抽样多少人这些都要很谨慎。港大的民意调查说,我的是随机抽样!别以为纯随机抽样就会很严谨了,随机抽样也是有缺陷的。更详细地了解新闻,说是”对530多名人士进行电话访问“得出的结果。重点有两个:530多名,电话访问。530多名样本多不多?这个不能说多,也不能所很少。再来看看电话访问,是固话还是固话和移动电话都有?是什么时间段访问的?如果白天打固话访问,访问的会不会大部分都是家庭主妇呢?这会不会有一定的偏向呢?有很多的影响结果的疑问在没有完整的了解之前,这个民调结果真的是仅供娱乐了。
  
   再来看看可靠的官方数据。近日各大报纸和网站头条都写着“深圳人均住房面积40平方米”字样标题的新闻。全国其他省市的人民看了肯定泪流满面!!!一家三口就有120平米,哇塞,特区就是特区,连房子都特别大,虽然房价特别贵,但是里面的人都特别有钱。标题总是容易让人记住,详细内容总是很少人看的。仔细看这一长篇报道发现里头有这么一句话:”李荣强(住建局局长)说,如果按照户籍人口计算,包括低收入家庭在内的住房完全不成问题,住房保障率达到100%。但是根据统计,目前深圳共有4亿多平方米的住房面积,约600万套住房,人均40平方米。“原来人均40平米是这么来的!共有住房面积/户籍人口=人均住房面积。这就是偷换概念了。把人均住房面积计算的除数和被除数都变换了,得出来的还是人均住房面积吗?这个4亿多平米的住房面积是卖出去的还是建成的所有住房呢?没有说。为什么用户籍人口不用常住人口呢?不知道!仔细挖掘一下,就发现这是一个面目全非的”人均40平方米“。
  
   另外一条更让人欢乐的新闻说:“深圳人平均月薪6644元 金融保险月薪最高”。一看到题目,很多深圳网友都开玩笑表示自己给国家拖后腿了。然而这个新闻可信吗?常识告诉我们,不可信!常识都觉得不可能的事情,怎么严谨的数学、统计会出现呢?根据书中所学,禁不住要问这里写的“人均”,这个平均数究竟是算数平均数、中位数还是众数呢?如果样本的薪酬分布和正态分布差别很大,那这三者是接近的,然而实践表明,很多调查的结果分布往往不是这样的。这个调查的抽样是随机抽样还是分层抽样,分层抽样分几层,每层比例占多少?抽样总数是多少?好吧,问题太多了,简单点,问两个问题:这个调查是谁做的?TA是怎么得出来的?仔细查了一下这个新闻,才发现原来这个数据是南方人才市场得出来的,从一段时间内的简历库,猎头等地方获得相关参考数据。很显然,一般普工和行政、事业单位的工作人员是不会去人才市场投简历的,所以这个抽样是不全面的。即使这个是一个抽样合理的调查,也还会有问题存在。一般报纸杂志上报道只给出了结果,并不会给出可能误差和标准误差的一些相关参考数值,这就无法判断这些平均数等数据的可信度了。媒体只会抓住这种新闻亮点大肆报道,不会认真去核实这些问题,观众看了容易受到误导。
  
   又是近期的一则报道”研究发现镇痛药增加老年人肺炎危险“,报道根据是:”阿片类镇痛药(opioids典型的中枢神经镇痛药)与65—94岁人群肺炎危险增加关联密切。”“多项动物研究发现,吗啡、可待因和芬太尼(fentanyl)等阿片类镇痛药会损害免疫系统,可能会增加肺炎危险。”“经过2000—2003年病例对照研究发现,在肺炎病例中,服用阿片类镇痛药和苯二氮草类镇痛药的患者分别占13.9%和8.4%。而在没有得肺炎的参试者中,服用阿片类镇痛药和苯二氮草类镇痛药的患者分别占8%和4.6%。“发现阿片类镇痛药与老年人群的肺炎病发有相关性,然后通过动物实验再次验证了这个相关性,就得出了镇痛药会增加老年人的肺炎的发生。后面的数据也就是不断重复做了一件事:证明阿片类镇痛药的使用与老年人的肺炎发生有相关性。但是媒体报道的标题就成了镇痛药导致了肺炎的增加,相关关系成了因果关系。两个事物a和b存在相关关系,可能的情况有很多种,可能的确是因为镇痛药的使用降低了免疫力导致肺炎的发生,又或者是易患肺炎的人群在发病前都有其他的并发症状导致他们需要服用镇痛药,又或者因为这类人免疫力低下的原因,容易患肺炎和其他需要镇痛药的疾病。在没有各种对照实验和病例研究之前,单纯根据观察到的相关关系是没法确定他们的因果连接的。这类相关性实验的作用只是为后续的实验提供一个研究的参考方向。一般科学研究实验总是比较严谨的,很少出现这种情况。但是问题出在几个方面:1)媒体断章取义,故意忽视了一些研究结论所限定的条件,扩大到了日常生活中;2)媒体不够专业,不能理解真实意思。但是不管哪个原因媒体只要把标题起好了,就可以吸引人的注意力,新闻点有了,目的就打到了。至于解释这种事情,没人关心。个人发现此类报道多见于生活健康一类科学前沿的报道。
  
   现在太多这种报道了,各种官方数据、各种行业企业数据、各种媒体报道、让人防不胜防。网上的玩笑说,一个穷人一个富人,穷人住50平方米的房子,富人住120平方米的房子,平均住房面积为80多平方米。后来富人换成了240平方米的房子,穷人依旧,但是平均住房面积变成了差不多150平方米,增加了差不多一倍。面对各种的数据”谎言“,达莱尔.哈夫教我们,要问五个问题”谁说的?“”他是怎么知道的?“”遗漏了什么?“”是否有人偷换了概念?“”这个资料有意义吗?“
   距离达莱尔.哈夫这本书的出版也已经有几十年的时间了。各种利用统计数据撒谎的报道仍然在继续,只不过手段没有那么笨拙了,书中所说的很多”愚蠢“方法已经不再出现,现在的手段越来越难辨识了。然而《统计陷阱》只是一个向导,引导出我们的找碴能力,对于媒体上报道的,不能轻易相信,应该时刻带着批判思维去思考和检视。正所谓,世界上本来没有防骗术,给骗的人多了,自然就会开发出了防骗术了。看完这本书之后颇有几分凡是报道的数据都可疑的味道,嗯,很好,带着这样的目光去发掘更多的防骗术吧,这次就不单是数据了!


  1. 内在有偏的样本
  2. 精心挑选的平均数:均值(偏大),中位数(偏下),众数(居中),只有满足高斯分布,这三个值才差不多。
  3. 没有披露的数据
  4. 毫无意义的工作
  5. 令人惊奇的图形:改变坐标轴的比例,可以产生不同的视觉效果。
  6. 一维图形的滥用:数字是2:1,如果画成二维图形,视觉效果就是4:1
  7. 不完全匹配的资料:数据是真实的,但得到结论是从某一侧面
  8. 相关关系的误解:两个事物之间的关联关系并不能用于说明其中一个将引起另一个的变化。
  9. 如何进行统计操纵:变化基数能产生增加折扣的幻觉。
  10. 如何反驳统计资料:对统计资料应该提出五个问题:(1)谁说的;(2)如何知道的;(3)是否遗漏了什么;(4)是否偷换了概念;(5)资料是否有意义。
  
  


  其实统计学只是工具而已,出于特别用意的人用就会有特定的结果,尤其是在商业中,选择、加工、发布利于自己的数据是人性使然。
  
  一般来说,理工科毕业,有着良好的逻辑思维和统计学基础的人都不容易上当,只不过这个世界这样的人较少罢了。这么说来,说出一些“常识”帮助大部分人,也算是善举了。
  
  btw,其实这本书中文版的标题也有这个“陷阱”,呵呵,人性啊人性。。。


   很愧疚地讲,作为一个工科毕业生,我对数字是非常不敏感的。小学时期,老师让我数跳绳的数,基本上就没有数对过,总会差几个,老师在黑板上出的“11111”我能抄成“1111”然后被罚站不让回家吃饭。上了高中、大学以后,看见那种一连串的1,或者一连串的0,我都会脑袋发懵,要闭了一只眼睛,用手指头按着一个一个数清楚。直到现在,看见excel里面“¥100,000,000.00”,我还是会紧张,用老办法“个十百千万”地数。
   但是现在,数字充斥了所有的媒体,权威机构,政府部门也乐于向大家发布一些带着小数点的数字。作为学过《数理统计》的工科学生,我毫无犹豫地看重这些数字并且视其为科学的象征。
   但是《统计数字会撒谎》这本书告诉我,带着小数点的统计数字,很可能是在扯淡。
   得到统计数字以前,需要采集数字,然后利用工具处理、分析数字,最后使用方法展示数字,这些环节都是不靠谱的。
   街头采集的数据,会受到采集人本身偏向性的影响。以我为例,如果我让我上街去做问卷调查,凭我这种身材、长相和气质,大约能够吸引更多的中老年妇女的青睐;而如果是林志玲上街做问卷调查,大约是16-60的老中青三代男孩会抢着回答吧。挂在杂志或网站上的表格,永远只会是经常购买、访问这些媒体的人才会做。
   数据还要进行有效性检查,不合格的数据要排除,排除的准则也有偏向性。
   统计方法有很多种,统计人员会根据自己内心想要得出的结论有针对性地选择。比如说,如果要证明工资很低,那么选择中位数来做计算,如果要证明工作相对较高,那么算术平均数是不错的选择。说句题外话,前段时间房价疯长,离单位很近的房子租不起了。我很郁闷地google了一下2010年北京市月平均工资,4073元,以2010年平均房价2万元一平方米计算,买一套90平方米的房子,需要180万,这个收入用哪个网站上哪个房贷计算器,都只能得出倾家荡产还房贷的结论。都是谁在买房?用什么钱在买房呢?不是统计数字错就是房地产商在说瞎话,对吗?
   展示数字同样讲究。用图表,横轴、纵轴用什么比例?用语言,选择什么样的分母来计算百分数和比例,怎么处理比例?
   书上没有多少愤世嫉俗的语言,从口气上看,作者其实还是很同情收集、计算、公布数字的这些人和他们的工作的,因为很多偏见在所难免,看数字的我们要打起精神来好好看看书数字背面的说法。
   不能盲目迷信数字,我想这才是作者想说的吧?
   但是搞明白这些好累哟。。。


   看这本书不累,作者把书写的很轻松,用讲故事的方法去讲述他的思考,内容虽然是上个世纪50年代写就,但那些分析方法和思路到现在仍然管用,这也是这本书不断再版的根本原因。
  
   看完这本书之后比较累。我在看完后一段时间,形成了一个思维习惯,再看到有统计数字的报道,第一个念头就是“不能相信这些数字”,潜意识里已经认为这些数字经过了“修饰、加工或存在不合理的推导逻辑”,之后就开始用书里的内容试着去把他们背后的“错误”挑出来。我再面对统计数字时,不再像原来那样默认通过,会增加独立的思考和分析,我觉得这是一种思维习惯的改变,这是这本书带给我的变化,也是我推荐他的最重要理由。
  
   那统计数据是如何伪装而取得信任的呢?一般来讲,分析可分为定性分析和定量分析两类,定量分析因为有数据支撑,普遍被认为分析过程更严密可信。“统计这种神秘的语言,在一个靠事实说话的社会里是如此地吸引眼球,但有时他却被人利用,并成为恶意夸大或简化事实,迷惑他人的工具”,统计数据最迷人的地方,他会罗列很多数字、过程说明和分析过程,这让这些数字赋予了逻辑的力量,很容易给人以信任感。但其实,很多数字的本后其实只是一个有目的性的谎言。
  
   我根据书中所写原理,反向编译了一个小case,有戏谑味道,说明一下典型的“How to lie with statistics”。
     “据路边社报道,某著名研究结构经研究表明,进行产品研发工作的员工生男孩的机率远高于进行解决方案工作的员工。该机构统计发现,某大公司产品部已有孩子员工当中,男孩所占比例为89%,解决方案部为56%,高出30多个百分点。数据表明,产品研发因为更需要理性思考,会刺激身体产生更多的Y基因,因此更有助于生男孩。因此如果你还没有孩子,又想生男孩,最好选择产品经理作为下一个职位。”
     这个报道因为有具体的数字(而且那些数字是真实的),有分析过程,看上去好像很合理。 这些数字都是真实的,但再让我告诉你一些背景信息:
  1、公司是个大公司,但例子中所说的产品部其实只有9个人有孩子,解决方案部有孩子的也只有9个人。属于典型的小样本统计
  2、这18个人中,有部分人在来产品部或解决方案部工作之前,已经有了孩子。
  3、即使样本数足够大,也只能说明不同工作与孩子性别比例之间存在一定的相关关系,但不见得有因果关系。
   
   某些利益代言体可以很容易为了一个既定的目标,去运用统计数据去迎合他想表达的那个结论。所以再看到统计数字时,先不要直接相信,多打几个问号,仔细思考这些数字本后的背景信息和分析思路,怎么能有效分析,不想继续被各种统计数据迷惑,本书序言有一句话“骗子对于行骗的技巧早已胸有成竹,而诚实的人出于自卫也应该掌握它。”这本书很薄,早点收了阅读他吧。
  


  我们日常生活中常常会看到各种各样的调查,以及基于调查结果得出的种种结论。调查往往做得一本正经,但是似乎我们又经常能看到各种让人感觉不那么对劲的调查结果,总觉得哪里出了问题。这本书就力图解释这样的现象:为什么看似认真的统计却得到虚假的数字?
  
  调查者选取了合适的样本吗?被调查者有没有主动或被动地说出并非真实的答案?统计数字是否真的可以推导出那样的答案?统计图表是不是也在误导着读者?其实我们每次看到统计局发表什么新数字的时候都会想这样的问题,对吧?
  
  其实调查者也不一定是故意为之,我印象里有些学校还开设了社会调查学这样的课程,调查本身就是一门颇有可研究之处的学问。即使我们想得到真实客观的数字,其实也常常会被一些疏忽打搅了这美好的愿望。调查结果说用户喜欢这样的页面,但页面真的上线之后的反响未必就像想象中那样热烈。这时,产品经理会挠挠头说:“这到底是为什么呢?”这本书就在用一个个的反例告诉我们这到底是为什么。
  
  话说回来,统计局还是很威武的……
  


  办公室铁皮柜里发现的,觉得挺薄的就偷回家了。看了开头还觉得有点意思,后来就越看越觉得没意思。不过要是入门还是可以,辅导读读也不是什么坏事。最近看书越来越少了,时间不多,挤了很久也没有挤出来能静静看书。钱没有多拿,反而事情不少做。而且还没有人说你好,到处还被挤兑,越想越觉得什么世道啊,挺累的。真的挺累的。


  拿到统计数据之后,问几个问题:
  1. 谁说的;
  2. 统计数字是否足够大而说明问题;
  3. 采用的那种平均值算法;
  4. 仅仅有百分比说明不了什么;
  5. 相关关系,是否有概念的偷换;
  6. 存在被调查者说谎的可能;
  7. 这个材料有意义吗?
  8. 准确的数字更让人怀疑;
  


  虽然不能把这本性价比实在不高的书完全归罪于作者本身,可是我还是不满这本薄薄的二小时能看完的书居然价格为28元。
  写书的年代和我们真的差距太大,以至于我很难能理解一个个案例,众多古怪的闻所未闻的统计数字极大地降低了阅书的流畅性。
  至于书中所阐明的观点,我觉得太过浅显(可能是由于我的工作原本就是和统计数字有关),稍微有点工作常识的人都应该能识破书中的数字诡计吧。


  感谢网友的博文推荐,让我找到了一位久违的朋友。不过,令人费解的是,这位朋友频繁更名,都不知道该怎么称呼了。它的本名叫《How to lie with statistics》,直译为《如何利用统计撒谎》。80年代出版时,翻译为《怎能利用统计撒谎》。2002年上海财经大学出版时,改名为《统计谎言》。2009年中国城市出版社出版时,改名为《统计数字会撒谎》。这本书在大学时读过,印象很深刻。毕业后多次在网上搜索,都没找到踪影,原来换了马甲。
  
  这本书出版于1954年,作者是美国的达莱尔•哈夫,一位对统计颇有研究的新闻记者。记者的职业特点是博而不通,对什么都了解,又了解不深,以似懂非懂的笔触,让本来全然不懂的读者阅后觉得很懂。哈夫对统计的研究不限于表面,显然是下了功夫,并且收集了很多素材。深入浅出的介绍,加上新闻的笔法,使这本书非常生动。无论你对统计学、经济学有没有兴趣,无论你是什么职业,读读这本书都会受益匪浅。这本书在网上能找到电子版,出于对知识产权的尊重,就不上传了。
  
  《如何利用统计撒谎》,本质上是一本关于统计学的科普作品,抽丝剥茧地告诉读者,统计数字是运用什么方法得来的,会有哪些偏差,在表现形式上会给人以什么样的错觉,什么样的统计数字是有意义的,什么样的是在有意误导。例如怎么看待抽样调查,怎么认识平均数,怎样察觉没有披露的数据,怎样识别夸张的统计图形,怎样判别相关关系和因果关系。这与饱受诟病的统计数据失真、统计造假并不是一回事,出版社把中译本改名为《统计谎言》、《统计数字会撒谎》有着明确的指向性,难免有炒作的嫌疑。
  
  中国的统计数据,向来饱受非议。外国人质疑,国人也怀疑。这些质疑和怀疑,很多时候并没有什么理由,只是出于一种不信任。其实大多数人对统计数据的认知,存在着很多误区。前些日子,媒体炒作平均工资时,本来打算写一帖子,后来一想很多人质疑统计数据其实是在借题发挥,表达对收入的不满,咱又不是高收入阶层,何必站在大众的对立面?不过,就事论事,公众确实对统计有误解。
  
  第一个误解,把统计当会计。有道是“七分统,三分估”,还有倒过来说的,“三分统,七分估”。统计不是会计,统计数字不可能丁是丁、卯是卯,完全准确地普查汇总。西方国家的统计制度,估计的成分十分高。以严谨著称的德国,GDP核算采取分邦推算,这个邦今年核算工业,另一个邦统计农业、服务业,第二年再轮换。通过几个邦的工业资料,推算全国的工业数据,进而核算全国的GDP。英国核算完GDP,直接再加10%,作为可能漏统的地下经济。头号经济强国美国的GDP也是推算出来的。这些方法搁在中国,公众肯定不能接受。假设中国的实际GDP是28万亿,统计为30万亿或者25万亿,就不准确了吗?自己口袋里面的钱都未必能说具体,一个大国的经济总量有个大概齐也就不错了。顺便说一下,在90年代,世界银行每年都会在中国公布的GDP的基础上,再加上23%,他们认为中国的服务业统计有遗漏。
  
  第二个误解,把统计数字绝对化。哈夫的书中举了一个例子,一个孩子的智商测试成绩是98分,一个是101分,那么101分的就一定比98分的聪明吗?智商测试也是有误差的,假设误差是上下3分,那么第一个孩子实际得分是在95-101分这个区间,而第二个孩子的得分是在98-104分这个区间,如果一个取上限,一个取下限,结果正好颠倒过来。很多地区之间为了多几亿、少几亿比来比去的,把数字绝对化、机械化,毫无意义。
  
  第三个误解,把总体数据与个体比。国家统计局公布全国的平均工资,很多人认为与自己的实际收入水平不相符,弄虚作假,粉饰太平。个体达不到平均水平,是再正常不过的事情。这里就不普及平均数、中位数、众数的知识了,只想说指责国家统计局以平均数掩盖事实,实在是没道理。在国家统计局的网站上,公布了各行业的工资水平,收入高的行业高的惊人,收入低的行业低的可怜,这是现实,对号入座就是了。同样,也按收入等级公布了分组收入水平,最高收入户是最低收入户的9倍,60%以上的居民收入低于平均数,如果你在此之列,就统计数据而言也极为正常。
  
  第四个误解,统计数据拿起来就可以用。太晚了,想睡觉了,不一一列举了。
  
  哈夫提出,对统计资料应提五个问题:谁说的?如何知道的?是否遗漏了什么?是否偷换了概念?资料是否有意义?能多问几个为什么,是一种能力。蒙蔽住眼睛的,不一定是他人的欺骗,也可能是自己的无知。希望大家都有一双慧眼,再次推荐我的老相识——《How to lie with statistics》。
  


你最后的总结一语中的非常到位,反映出中国大众更应该从小养成质疑的思维习惯,而非一概照单全收和相信权威,更不能轻易相信媒体。
另外,对你最后提出的疑问,“如果你以每月等额分期还款的形式从银行以6%的利率借了100美元,应支付的利息的3美元。” “3美元的利息是怎么算出来的啊?这种借贷法没听说过啊。“
做个简单解释,等额分期还款,分为等额本息还款和等额本金还款,如果是等额本息还款则累计支付利息是约3.28美元,如果是等额本金还款则累计支付利息是3.25美元。
等额本息贷款每月还款额计算法:
=[贷款本金×月利率×(1+月利率)^还款月数]÷[(1+月利率)^还款月数-1]


老实说吧....看完这书,第一反应是我靠,我生活在一个无时无刻不被耍的社会里啊,怎么没有早点看到这本书。但过了许久再想想,即使我了解完了骗人九招,自救N招,在面对那么多统计数字时,我还是没有专业知识加以辨别,而且似乎自己也活得略累啊...


反其道行之,作者知道后一定会会心一笑,公务人员必备手册~


最后在审核环节,有些数据领导觉得高了(比如性经历)。。。。什么样的单位,还需要知道这个么 ̄□ ̄||


同感,而且翻译得极差


是啊,翻译太差,有些话要读好几遍才能明白作者的意思。


相关图书