什麼都能算,什麼都不奇怪
2008年10月27日
時報文化
Ian Ayres
張美惠
无
為什麼Google與亞馬遜比你更了解你的品味? 賭場為什麼不讓你繼續輸錢? 數學公式如何幫你找到另一半? 應徵工作時,你知道自己是因統計分析而吃了閉門羹嗎? 生活裡,數據無所不在,決策只靠經驗與直覺,已不夠看,在這個資料至上的社會,統計文盲絕無法成功--甚至難以生存。 數據+直覺+經驗=創意→聰明決策 這是個數據思考的時代。這場數字革命,與其抗拒,不如參與。 舉凡醫生的診斷、下一代的教育、企業經營、政府組織、網站--例如Google與亞馬遜便比你更了解你的品味 這些新品種的決策者無處不在發揮影響力。他們提出的預測精準到讓人咋舌。 你知道棒球教練即使沒有見過球員也能評斷他的潛力嗎?你希望在購買機票之前預知票價會漲還是會跌?簡單的公式為何比酒評家更能預估葡萄酒的品質?這些問題,超級數據達人都有答案。在這個方程式VS專家的美麗新世界,蘊藏其中的利益與風險為何?誰是贏家?誰是輸家?如何善用超級數據分析以避免被操縱? 仰賴直覺進行決策的時代已然過去。不論你是企業家、消費者或學生,若想要超越群倫,在跨出下一步之前一定要先讀讀《什麼都能算,什麼都不奇怪--超級數據分析的祕密》。
伊恩‧艾瑞斯(Ian Ayres)
計量經濟學家與律師,耶魯法學院教授(William K. Townsend教授席),耶魯管理學院教授。經常在美國公共電台的「市場分析節目」(Marketplace)擔任評論員,也是《富比世雜誌》(Forbes)的專欄作家。目前擔任《法律、經濟學與組織期刊》(Journal of Law, Economics, and Organization)編輯,已出版八本書,發表過上百篇文章。另外,也以客座部落客身分在《紐約時報》「蘋果橘子經濟學部落格」定期發表評論、分享意見。
◎聯合推薦 亞洲資採技術總監&微軟特約顧問/尹相志 輔仁大學統計資訊學系教授/中華資料採礦協會理事長/謝邦昌 台灣實證醫學學會祕書長/萬芳醫院實證醫學中心主任/陳杰峰 臺灣體育大學休閒產業經營學系副教授/陳美燕 政治大學公共行政學系助理教授/蕭乃沂
无
就是原书副标题:Why Thinking-By-Numbers is the New Way To Be Smart.
说到标题真是无法理解《什么都能算,什么都不奇怪》这个东西到底是从哪里翻译出来的,不要告诉我是增加销量考虑。。。下方正文:
1. 控制临界点
哈乐赌场运用顾客的资讯来预测特定赌客可以忍受输掉多少钱(将顾客资料套入会回归分析公式),仍愿意回来消费,即痛苦临界点。而当资料库侦测到某顾客将要输到临界点时,会有幸运大师引导她离开机子(比如好可惜今天运气不好,我知道你喜欢我们的牛排,不如离开去尝一下这样)
---不仅是数据和分析,更是消费心理。的确有一些顾客本来就抱着手上钱都输掉就走人的心理在玩,但都输光后基本就感觉心愿已了,以后也不会再来了。
2. 消费者(or 对立面个体)的反击
比如发现航空公司在起飞前不断调整价格的教授进行反向分析,创立了farecast。 还有房地产业的Zillow是根据大量资料集的分析,通过过去房价帮助买卖双方订定适当价格。
------常见的是用过去数据(大量数据)进行对未来的预测和分析,而且在作者看来会因为资料的大量产生(智能化),免费取得而使进行分析更加方便。但我觉得更有效的是针对商家算法进行反分析~一时之间想不出典型案例,先记一下。
3.人与程式的对立
书种典型案例(在我看来)是直接教学法。因为这个方法基本上,明显,坦白,直接地消除了教师作为个体的价值(或者附加价值)。教师只用照本宣科,不用准备也不用创新,那下一阶段的发展就是取消或者减小这一载体(全面电子化或者远程)。所以看那一段的时候我想到的是《慧眼挑金》里提到的技术进步必然带来大批工作的消亡,的说法。
总结:
相比《大数据》(Big Data:A Revolution That Will Transform How We Live, Work, and Think),这本书中商业,创新化的案例少得多。而且大概是学者惯例,常用大半章讲一个社会化的案例(医学,教育)。
在实际操作上,给了一个有效的公式——就是我们的葡萄酒先生。大概因为有公式无销量的理念太深入人心了。问题是数字非常多,尤其是涉及常举的决策层面例子时,差点变成~大数字~。。。
最后一点是此书很适合和其他几类配合看。比如大数据类,还有赌场掌控临界点的已经进入了行为心理学范畴。 直接教学的争议性是工业革命以来技术威胁职员的又一例证。 算法和反算法的进步真是让人对人类的未来期待得热泪盈眶。
作者在书中提到的有用工具:
Google :: prediction tools ayres (是的这多方便)
作者推荐阅读:
Ray C. Fair,
Predicting Presidential Elections and Other Things (2002).
Steven Levitt and Stephen J. Dubner,
Freakonomics: A Rogue Economist Explores the Hidden Side of Everything (2005).
John Allen Paulos,
Innumeracy: Mathematical illiteracy and Its Consequences (1989).
John Donohue,
Beautiful Models, and Other Threats to Life, Law, and Truth (forthcoming).
书中值得一读的其他书籍和文章:
An introduction to Neural Networks By Kevin Gurney
Neural Networks and Betting:
Hsinchun Chen et al.,
"Expert Prediction, Symbolic Learning, and Neural Networks: An Experiment on
Greyhound Racing," 9 IEEE Expert 21 (Dec. 1994).
Daniel C. Esty and Reece Rushing, Data-Driven Policymaking, Center for American Progress (Dec. 2005).
James Surowiecki, The Wisdom of Crowds (2004)
Steve Carter and Chadwick Snow, eHarmony.com, "Helping Singles Enter Better Marriages Using Predictive Models of Marital Success," Presentation to 16th Annual Convention of the American Psychological Society (May 2004), http://sratic.eharmony.com/images/eHarmony-APS-handout.pdf
Barbara Ehrenreich, Nickel and Dimed: On (Not) Getting By in America (2001).
Ronald Fisher, Statistical Methods for Research Workers (1925);
Ronald Fisher, The Design of Experiments (1935).
David Greenberg et al., Social Experimentation and Public Policy-making (2003).
Benjamin A. Olken, "Monitoring Corruption: Evidence from a Field Experiment in Indonesia,"
Clinical Versus Statistical Prediction: The Contribution of Paul E. Meehl," 61 J. Clinical Psychol. 1233 (2005), http://www.psych.umn.edu/faculty/grove/112clinicalversusstatisticalprediction.pdf
William M. Grove and Paul E. Meehl,
"Comparative Efficiency of Informal (Subjective, Impressionistic) and Formal
(Mechanical, Algorithmic) Prediction Procedures: The Clinical-Statistical
Controversy," 2 Psychol. Pub. Pol'y and L. 293, 298 (1996);
D. Kahneman et al.,Judgment Under Uncertainty: Heuristics and Biases (1982)
Oliver Wendell Holmes, Jr.,
"The Path of the Law," 10 Harv. L. Rev. 457 (1897)
在大部分被数学折磨得死去活来的关注人类心灵的“人文学者”或是文艺青年眼里,数学不过是加减乘除,用来算算房价、股市收益或是购物打折就可以了,更高深点的东西是科学呆瓜们的事情。看看那帮毫无情趣的家伙,他们神情呆滞,体态孱弱,老是犯类似“然后,就没有然后了……”的错误,终日在实验室中鼓捣那些与正常生活八竿子打不着的东西,用甚至自己都看不懂的数学公式将他们的工作包装一番,不知怎么的就得出了一个可能全世界只有几个人会关心的结论。
但现在看来,文艺青年们的阵地可能要失守了。Super Crunchers科普了统计学在诸多领域的应用和强大威力。在过去几十年里,潘多拉摇身一变为“统计学”,已经偷偷溜出了关着她的实验室,把魔爪伸到诸如葡萄酒娘、电影、书籍、症状诊断、法律、教育理念等以往看来跟数学毫无关系的领域。它施展诸如回归方程、正态分布、贝叶斯公式,甚至神经网络算法等十八般武艺,拳打品酒师,脚踢制片人,将这些领域中靠经验和直觉吃饭的权威专家们打得满地找牙节节败退。
有什么办法呢,哪怕你是有着50年从医经验的专家医师,世界上11000种疾病你也只知点滴,依然有各种疑难怪病是你见所未见闻所未闻的。但将症状与数据库信息匹配,很快就能够将疑似疾病以可能性的高低一溜排开。
又或者,就算你拍过一系列畅销电影,对电影的认识极具洞见,但你可敢宣称畅销电影不需要明星,不需要好导演,不需要满世界找拍摄地点?数据统计的分析结果告诉你,一部卖座的电影,确实不需要这些。统计学家们根据剧本就能够预测电影的票房——虽然不是特别精准,但已经比“业内专家”的准确率高了一倍!
再比如说靠“感觉”吃饭的品酒师,他们品呷一口美酒,给它定下品级,决定了价钱,一不小心便成就几百万的生意。但统计学家告诉人们,品酒师们的舌头跟鼻子可不准确,立场也未必中立,葡萄酒的质量要看当年的气温和降雨量。有了这两个参数,计算机能够预测出葡萄酒的品质。这让品酒师们气急败坏。但最后结果证明,统计数据是对的。无论品酒师们怎么吹嘘,市场价格最终证明了86年的波尔多红酒确实品质很差,同时也证明了88年的红酒品质极佳,89年的更胜一筹。
想来真是一件美妙的事情。无论什么事情,只要将其数据化,输入计算机,经过一系列复杂的计算,便能预知未来的可能性——统计学家和极客们将要统治世界!想想看,我在犹豫是否要买iphone 4s,计算机分析我的过往消费和生活习惯数据后,给出建议,让我去买1000元的山寨机,这能让我收益最大化。而深圳的山寨机厂虽然生产手机不怎么样,但有超强的数据分析能力,他能够根据我以往的消费习惯,分析出我能最多能被坑/购买另一家厂商的产品的价格临界点,利润最大化。这个世界将井然有序,科学合理,不是么?
不过数据统计并非万能。数据毕竟来源于过去,完全由历史来推断未来,很多时候显得自缚手脚。默片时代,数据无法证明一部有声音的电影将会卖座。在苹果鼓捣出iphone之前,数据的来源是可以用来砸核桃的诺基亚手机,根据它的预测,更好的手机应该是续航更久、键盘更好用……而不是......iphone。
但真正让人深思的不仅仅如此。书中还提到了统计学在法律中的应用。潘多拉摇曳着身姿,进入了最为严肃、关乎人类社会基石的领域。同样的罪行,假如受到更严厉的惩罚(坐更长时间的牢),是否会降低罪犯出狱后再犯的几率?看上去是的。但统计学研究告诉我们,坐牢时间长短与再犯率没有关系。
另一个例子让人更加印象深刻。一名劣迹斑斑的性罪犯刑满出狱。在他即将踏出监狱大门的时候,法官们用计算机分析他的案底、心理数据后发现,这家伙重犯的几率非常高,于是要让他一直被民事拘留,直到他通过年度审核,经过一些列的测试,法官认可后才可真正获得自由——否则便是无异于终身监禁的持续性拘留。
多棒的一幅后现代图景!人们已经为过往的行为付出了代价,却依然要因为根据自己的过去而计算出来的一个“可能性”而失去自由——为还未发生的事情负责。尽管在商业中,比如说银行贷款,银行完全可以根据一个人的信用记录来决定给不给顾客提供服务;但这毕竟是剥夺自由,不是你情我愿的商业买卖。
一个持枪走向银行的人有明显的危险性要被制止(感谢李腾君提供的例子),对犯罪的预防是有必要的。但你能够想象,一个眼前看上去毫无侵略性的人,会因为他的历史和心理状态而已经失去了自由么?哪怕是被提前截下的银行抢劫未遂者,也是在他谋划、行动途中,而不会是在两个月前跟女友分手,或是失业半年穷困潦倒的时候被逮捕吧?
但有趣的是,这个法案确实被通过了。(当然,我是法律外行,只能就最浅显的信息作出近乎直觉的判断)
看过黑镜的同学应该还记得,第三集的男主角要开车的时候,Grain警告他的心理状态不适合驾驶。按照片中对Grain的描述,它自然也能够分析出男主角当时有强烈的暴力倾向,非常有可能进行犯罪行为——这个时候应该马上有警察将他拿下,预防犯罪嘛。数据收集、分析、预测,加上预防犯罪……
可以想象,未来的某天,由于前天晚上忘了设置闹钟,起床太晚马上要迟到,因此产生了强烈的反社会情绪。计算机马上根据我的心理状况预测出我有89%的几率要在老板的辱骂下揍他一顿;同时根据我的能量水平和肌肉状态,认为我确实有这个能力,于是禁止我出门。在焦急中我产生了更强烈的暴力倾向,计算机接收数据后经过计算,直接报警通知警察。我在心绪平静下来后,决定要掩饰自己的反社会情绪,计算机查探出了我的“掩饰”,于是乎我要掩饰“掩饰”……最后我终于出门了,内心的小宇宙被无数层“正常”的盔甲包裹,脸上洋溢着幸福快乐而又意味深长的蒙娜丽莎式微笑……
李腾君说,尽管这是可能的发展方向,只要人类还保持对权力的警惕,应该不至于如此。
但人类对权力保持警惕乃是因为对人性和理性的完备性不信任。但假如权力依托于机器呢?价值中立的计算机,随着科技的发展,因拥有超强的信息搜集和数据运算能力而几乎理性完备,世界于是乎可以在他/她/它的安排下井井有条……
又或者,虽然人类对权力抱有警惕,但你知道有些权力代表着真善美、高大全,是不管你的警惕的……如果那个社团熬过了某个“科技阈值”,于是……
噢,未来还真是值得期待啊。一曲忠诚的赞歌。
这是BI系列的书,BI(bussiness intelege)是综合了统计学,现代信息技术,人工智能的多个学科的决策方法。令我惊奇的是作者是计量经济学,律师,管理学教授。读他这本书有些法律方面的探讨有点难理解,也觉得美国对于法律方面的“纠结”真多。
书中事例很多也随之介绍了基本的统计学知识,如随机试验,回归预测,平均值,标准差,概率,置信区间还有贝叶斯。从古到今,我们的自己做的决策和选择的过程,往往是依赖于对于整个信息的
综合反映,也夹杂着作为人的这种情感动物的显著特点,而社会科学给我们大家的感觉是研究一种人类活动的规律,现在数学尤其是统计学作为一种定量分析工具越来越参与进来了。书中涉及到的公共政策
制定的随机试验,医学上的循证法,教学上的直导教学法,各类生产上的预测,商业上的广告随机试验,消费分析,银行业上的信用评价等通过强大的数据库系统搜集信息,利用统计学的知识还有人工智能
方面(如神经网络)的知识产生更加准备的决策信息让人感觉新的时代将要到来,但这也的确让人沮丧,我们如此自豪,独一无二的直觉,感情,逻辑所形成的“智慧”有时候竟然比不过机器,自己通过网络搜索得到的诊断有时候比专业医生准备,若是有一套强大的自我跟踪数据库系统,经过跟踪整理可以很快分析出你的病因,以及需要采取的治疗手段,对于记忆调用来说,数据库的确拥有无法比拟的优势,得益于信息科技的突飞猛进的发展,首先,我们自己的知识量可以通过网络得到无限的扩充,而进一步,我们的思维活动决策开始可以依赖建立在定量基础上的机器分析出来结果,这种变革引发的争议更是不少,书中作者探讨了很多这方面问题,比如人的隐私怎么办,或许在得到好处后是否能够将隐私重新定义呢?而我们是否是应该利用数字做参考,还是我们应该大辅助相信通过机器而来的决策呢?我们的直觉,创造力如何与这个用算法处理出来的决策信息结合呢?数据统计决策失效怎么办,会带来多大的灾难性后果而这个人为决策比较呢?我的行为下一步已经被预测,这告诉我后会产生怎样的循环反映呢,这对人来说,对社会来说意味着什么?我们该相信谁,或者我们应该如果融合这项新技术?未来会怎么样,人工智能会发展到什么程度,未来我们能干什么,失去的智慧思考能力,万一机器连电影都可以写的比我们好时,绘画也比我们好时,我们能否重新找到人生意义?
1,现代信息技术发达,如网速的提升,cpu运算能力提升,硬盘存储提升,平板,无线,移动终端的智能化,七七八八的定律都证明的是这种发展速度是以两年翻倍速度增长的;2,互联网世界的诞生,人们生活的拓展,互联网带来新的生活,社交,商业体验以及维基精神,开源运动等开放,互助,共享,远程合作,虚拟世界的新文化;3,统计学在信息科学的运用还有涉及人工智能的模式识别,神经网络,遗传算法。。等等,结合最新数据库技术得以实现。我觉得这种趋势是不可避免的,唯一做的就是敞开自己的胸怀去了解它。现在来说,我们应该有种新的思维来认识这个世界,用数据的眼光来分析这个世界,当然这可以当一种乐趣一样去行动,想想如何对待自己的行为,如何将信息组织起来,如何将信息用来分析,如何参考结论再结合自己的经验发现些新的,有意思的东西。
例子:
第一代“诊断-决策支持”软件。一个名叫“伊莎贝尔”的诊断项目使医生可以输入病人的症状就可以得到一系列最可能的病因。它甚至还可以告诉医生病人的症状是否由于过度服用药物,涉及药物达到4000多种。“伊莎贝尔”数据库涉及1100多种疾病的大量临床发现,实验室结果,病人的病史,以及其本身的症状。“伊莎贝尔”的项目涉及人员创立了一套针对所有疾病的分类法,然后通过搜索报刊文章的关键词找出统计上与每个疾病最相关的文章,如此形成一个数据库。这种统计搜索程序显著地提高给每个疾病症状匹配编码的效率。而且如果有新的并且高相关性的文章出现时,可以不断更新数据库。
最近在卓越上买了一些商业智能相关的书,卓越给我推荐了一些相关的书。这两本都是卓越给推荐的,感觉可能还值得一看,就买来看了看。
《数据分析竞争法》是商务印书馆的哈佛经管系列之一,名头比较大,先看它。不过有些失望。不是给技术人员看的。题目中的数据分析大约是说商业智能中的数据挖掘。作者把企业利用数据挖掘的程度分为由低到高的五级。全书反复论述每个级别的方法、工具、流程、对企业的好处,还举了一些的例子。在我看来这些例子不够详细,太笼统。所以我认为这本书适合于不了解商业智能与数据挖掘的管理人员阅读。
《超级数字天才》也在将数据挖掘给人类带来的好处。不同之处是相对比较详细,给出了具体的例子和实现的思路。书中列也在使用“数据分析”这个词,基本也在指“数据挖掘”。书中列举了数据挖掘在政府政策、教育、医疗等许多方面的实际应用的例子,都比较有意思。想了解数据挖掘的具体应用,可以看看这本书。
书中给我印象比较深刻的是例子中政府与教育行业的数据挖掘应用。一项政策的好坏,一个教育方法的好坏,美国人都试图用数据说话。
First of all, 我老人家就是喜欢没事收集和tweek data,分析看看有没有什么trend的,虽然生活里面没有什么设计randomized trial验证假设的机会,但是这个概念实在非常贴近内心。Overall I like the book,虽然新信息不是很多,这个喜欢来自于自己的bias吧。
喜欢本书的另外原因是刚好书里提到的好几个方面从前也读过类似的书,Checklist Manifesto, Freakonomics等等,(回头来列一下几大方向的试验)。Randomized trial in marketing and medical research, 甚至还提了一点supple chain management (which is an area that I am hugely curious about but not sure where to look for further information)
书里提出的一个idea是,不要用heuristics 去猜什么办法会有最佳成效,instead推出各种类似办法,设计试验用数据验证到底哪个办法最好。这个说法在现在很多书里面都提到,包括the dragonfly effect(use social media for nonprofit organizations)。大体意思是,不要纠结于自己的成见,快速measure and analyze,放弃不好的办法,赶快去adopt事实证明就是好用的办法,就行了。甚至不需要知道一种办法为什么work,if good data says it works, then adopt it on a wider scale (作为statistician 这个claim还是有点怀疑态度,因为试验设计里面出各种问题忽略一些因素的可能还是很大的)
对作者claim的regression sustainably beat expert opinion in many fields,很想看看具体数据和试验设计,虽然是一条我很乐于同意的claim,还是觉得too good to be true。
书中提到eharmony之类claim data driven prediction model是他们claim成功的原因,但是The upside of irrationality 里面攻击这个model的弱点也正在于此。Human traits are not so readily reduced to easy to compute dimensions.
书还没有读完,我还想知道作者有没有说什么场合下可以stats prediction consistently beat experts,什么时候不是。
-------------------------------------
读完了,缺乏惊人的地方,最终也没有能回答上面提的问题。
书可能过浅显了?读过的感觉是good to know, but now what?
也许对于我自己来说,就是多想想自己生活里面还有什么其他data可以去crunch?
这本书的主标题是"Super (Number) Crunchers", 副标题是"Why Thinking-by-Numbers Is the New Way to Be Smart". 前者和我的专业相关,后者则是在赞美我的专业,所以我本着自我肯定和自我欣赏的目的读了这本书 : P
写到这里,有必要澄清,读这本书绝对无需数学分析或高等数学的基础,不过你若是对随机抽样、统计回归、置信区间、数据挖掘等概念稍有了解,则最好不过。如果这些名词对你来说完全陌生,你仍可以100%看懂这本书,只是无法深入理解其应用。
这是一本很不错的Freakonomics以及The Long Tail的后续读物,前两本书指出了社会现象,而Super Crunchers则展示了其背后丰富的实际应用,尤其是商业和公共政策方面的运用,比如:
如何计算出素未谋面的球员的价值?
哪个学校的教育给学生的人生附加值最高?
如何用数理统计方法找到最适合你的另一半?
如何用数据辅助医疗决定,降低误诊率和死亡率?
如何给自己的书起个最为“标题党”的名字,最大化点击量?
如何用一个简单公式精确预测尚未上市的葡萄酒多年后的市场价格?
如何将有限的促销资源分配给即将流失的优质客户(而不是消费最多的客户)?
如何在赌客达到最大损失心理承受值之际,及时帮助其收手,维护顾客体验从而留住回头客?
这本书是渐入佳境式的,后一半更有阅读价值 (关于Neural Network, Direct Instruction (DI) 和数据挖掘的广泛社会影响的内容),对统计应用有一定了解的人可以直接从后一半读起。
国外网站上关于这本书的评论有点两极分化,大众读者的评价较高,而专业人士则提出不少批评,他们指出Ian Ayres的所谓大样本数据挖掘远不够专业,举例时未说明过去事件和未来事件的独立性,以及回避了商业数据挖掘的伦理问题等等等等。
这些意见都有其道理,而且我认为本书在统计应用方面也算不上有多创新。但从另一个角度来看,这不过是一本两百多页的大众读物,目的在于介绍数据挖掘的实际应用,讲述商业故事,而非提供具体数理方法的专业著作,从这个角度来说,这本书不失为有趣易读且富于启发性。
推荐阅读人群:1)喜欢Freakonomics或The Long Tail的人 2)对数理统计的实际应用感兴趣者
推荐扩展阅读:《The Numerati》 http://book.douban.com/subject/3218109/
推荐反面观点:《Blink》 (这两本书相当于 Pro-intuition v.s. Anti-intuition)
推荐扩展游戏:www.20q.net (此游戏可看作Super Crunching的扩展应用)
Interesting Quotes:
=========
"William Osler must be turning over in his grave. You Googled the diagnosis? . . . Are we physicians no longer needed?”
#Sorry, doctors, but it's time to face the inconvenient truth
Some researchers have so comprehensively tortured the data that their datasets become like prisoners who will tell you anything you want to know.
#haha, 这不就是我嘛!作为一个有明确目的的狱长,敝人的逼供哲学是:统计结果要为我的观点服务,与观点一致的统计量被我技术性放大,与观点冲突的数据被我"合理"去除。在学术上,我也许不是个好学生,但在工作上,我显然是个模范员工 : P
As a nation, we lack a vocabulary of dispersion.
The future belongs to the super cruncher who can work back and forth and back again between his intuitions and numbers.
#作者的Vision
Progress in medical science occurred one funeral at a time.
#即使在今天,这仍是真理。
"You can't Google dead trees."
He meant that it was (then) impossible to search the text of books.
#LOL, I am still a tree book person.
通勤途中讀的科普書。對應的大致是「個體計量」與「實驗經濟學」兩個領域。
有一次我問計量課老師,類似《蘋果橘子經濟學》那樣的個體計量研究,究竟在公共政策實務上有什麼應用空間?
尤其在台灣,公共政策的品質之糟糕是有目共睹的,各種施政根本不尋求嚴謹的研究支持,甚或發包的研究案擺明了就是要求為其施政背書宣傳。另一個重大的侷限則是資料的品質。相較於美國和日本,台灣的統計資料品質實在不好,既有的許多資料在取得上也有各種奇怪限制,自然也大大侷限了此類個體計量的研究空間。
老師回答說,個體計量在台灣的政策實務上確實沒什麼用,只是有啟發性的研究。不過他接著補充說,在企業界已經有人開始重視這種方法,分析企業手中所掌握的資訊,可以對企業產生直接助益。
這本書就是這樣的應用案例集。書中的案例五花八門,例如(括號中為頁數):
‧ 以氣溫和雨量來預測紅酒的品質(3);
‧ 球團以球員過去表現的數據來預測其未來潛力(8);
‧ 交友網站以使用者人際關係基本資訊來篩選你理想的伴侶(23);
‧ 賭場從你過去的行為模式研究你的「痛苦臨界點」,當你逼近臨界點時阻止你再賭下去(31);
‧ 1840年代奧地利的史模懷斯(Ignaz Semmelweis)透過統計分析找出孕婦大量死亡的原因是醫生離開解剖室後沒把手洗乾淨(80);
‧ 伯衛克(Don Berwick)利用實證醫學研究推動「拯救十萬人活動」,指出只要簡單改變一些作法就可降低病患風險,如將病床的頭部調高並經常清潔患者口腔就可降低術後肺部感染風險(82);
‧ 伊莎貝爾(Isabel)軟體將各種疾病的特徵、醫學相關研究與病例病史等資訊整合為可快速檢索的資料庫,協助醫生減少誤診率(94);
‧ 以過去採購案的資料進行統計分析,預測企業採購案的交貨準時度、預算符合度、採購滿意度(108);
‧ 運用神經網路預測電影上映後的票房(140);
‧ 或者企業利用隨機試驗(主要是網路)找出最佳行銷策略(第二章)。
本書也提到一些與公共政策有關的實驗研究案例:
‧ 強制提供求職輔助可幫助失業者提早找到工作減少失業津貼給付(64);
‧ 刑期長短不影響再犯率(70);
‧ 國安單位分析電話通聯紀錄找出恐怖攻擊嫌犯;揪出工程投標舞弊(42);
‧ 墨西哥政府的教養計畫,將讓孩子上學、懷孕時接受產檢與營養監測,作為現金補助的條件,且只有母親可拿到補助金(73);
‧ 預測法院法官判決結果(102);
‧ 預測受刑人再犯率(70、115);
‧ 評估何種教學方法比較有效(156)
書中案例的研究方式大致可分為兩類,一是利用既有的資料進行統計分析,另一種則是設計實驗產生出新資料。
◎去技術化與階級問題
在這些令人眼花撩亂的案例之外,作者明確提出了「將舊的(依賴經驗的)白領專家去技術化」的議題。
「去技術化」是社會學領域的勞動過程研究的關鍵議題,也是歷史上許多工人運動的主題,但這裡不多談了,有興趣者請參考經典著作:LABOR AND MONOPOLY CAPITAL by Harry Braverman。
在本書中,矛頭針對的是那些依賴經驗的專家,這種專家一再被統計分析擊敗,十分狼狽。這些過去被認為是白領專家的人,比如醫生,如今也可能面臨去技術化的衝擊。
但稍有常識的人都知道,「受害」的絕對不只是這些人,還包括舊一代的技術人員、一般基層員工(本書中提到受到更精細管控的Wallmart員工,但作者覺得這沒什麼不對)。而在企業外部,受害的或許在某種程度上也包括要面對更加高明的行銷手段的消費者、個人資料更加沒有隱蔽的一般公民等。
去技術化當然不是指技術水平的簡單降低。就整體技術水平來說,很難論證新科技的引進造成技術的降低,首先,技術高低很難有一致的衡量標準,再者,新技術也許確實會將某些工作去技術化,但也會產生另一些技術性工作。
去技術化爭論的關鍵在於,被去技術化的,與掌握新技術的,是不同群體,時間與空間上都是分開的,於是便出現了很明顯的一群受害者與受益者。在現行的資本主義制度之下,資方總是千方百計要將基層勞工去技術化,以方便控制、壓低工資,將技術集中在高級管理人員與技術專家手中。在這種「技術進步」的模式中,這些受害者很難得到補償,也很不容易轉移到其他工作而不至降低報酬。也就是說,看似中性的技術進步在現行的社會制度下一點都不中性,反而具有很明確的階級敵視意涵,即便這些技術人員可能並不具任何「惡意」。
當然,他們也可能具有惡意。操作技術的始終是具體的從屬於某些權力關係之中的人,高明的人還是有辦法用新的辦法玩弄統計。比如書中提到的利用統計分析設定有利於特定種族的條件(173)。也就是說,儘管作者努力把統計分析描述成無偏見、可信賴的科學力量,但其實統計本身也有很多不同的設計方法,生產出你想要的結果,用以包裹各種意圖。在此方面,我們看到的可能比較不是統計專家與非專家的對立,而是不同立場的統計專家的對立。
◎次貸風暴也算是其應用的後果吧
以上所談大致還是學術研究、以及簡單的預測應用,在作者筆下基本上十分光明、成功。但現實世界當然沒有這麼單純美好,將統計新技術玩到極端玩到爛,最終導致災難的例子還不算少。作者書中曾簡略地提到銀行核貸人員的經驗與知識被統計取代的例子,但他沒有繼續往下說的是,這種作法幫助了房地產市場以及金融市場泡沫的擴大,以及隨著泡沫破裂而來臨的全球金融危機。這方面已經有很多人提過了,這裡不再重複,轉貼一篇文章供參考:
【信報財經新聞】 2009年3月6日
濫用中國學者公式引致金融海嘯
林行止
一、
三十年代華爾街大崩潰後,投資理論並無重大進展,它之出現突破,為一 九五二年的事;是年三月號(第七卷第一期)的《財務學學報》(Journal of Finance),發表哈利.馬可維茨(Harry M. Markowitz, 1922-)的論文〈投資組合選擇〉(Portfolio Selection),引起投資理論的革命;馬可維茨的文章,被投資學界稱為「十四頁最重要的論文」─這篇論文只有十四頁,四頁文字其餘皆為程式和圖表。
包 括馬可維茨在內,誰都沒有料到這篇短文會造成「革命性影響」。因為這篇被稱為不朽的文章(monumental article),當年只有二十五歲的作者不會想到三十八年後的一九九○年,他因此和其他二位學者米勒(Merton Miller, 1923-2000)與夏普(W. Sharpe, 1934-)分享諾貝爾經濟學獎!
馬可維茨知道投資者對回報和風險同樣關注,這是何以 投資者通常「不會把雞蛋放在同一籃裏」的原因。風險和報酬率(Risk & Reward Ratio)便是這樣發展出來的。馬可維茨的真知灼見是,風險為整個投資過程的重心,一項投資計劃若沒有風險(riskless),困難將不存在,但利潤 亦相應低微。風險意味着可能發生的事較預期發生的更多!我們並不期待居住的樓宇火災,但火災可能發生,為了避免這種可能損失,只有買保險;同理,我們不希 望所持的股票跌價,然而它們可能下跌,因此我們不把所有資金購進一種股票,即使它看起來前景那麼美好。
分散投資(把雞蛋放在多個籃裏)和看中後重錘出擊(雞蛋少籃子亦少)孰優孰劣,是馬可維茨試圖解答的問題。〈投資組合選擇〉告訴投資者如何在風險與報酬之間作正確的取捨(trade-off),即如何建立一個風險與報酬平衡的投資組合。
非常明顯,「提供最高回報的有效率投資組合」,在七十年代風起雲湧,投資基金的成立如雨後春筍,帶旺了華爾街進而全球的金融業,令基金市場成為以萬億美元計的大生意,它便是建立在馬可維茨組合投資理論基礎上。一篇短文帶起一個行業,馬可維茨因此得以分享諾獎。
二、
南 開大學經濟學碩士、加拿大滑鐵盧大學統計學博士李祥林(Xiang Lin Li,江蘇連雲港人;以David X Li之名行世),在二○○○年三月號的《固定收入學報》(The Journal of Fixed Income)發表〈聯結函數的違約相關分析〉(On Default Correlation: A Copula Function Approach)。「聯結」和「相關」均為統計學名詞,用大眾化語言,可作這樣的解釋─夫妻日夕相處,生活習慣漸漸相近,其中一人過世,另一半在短期內 的平均死亡率較夫妻健在者高;這種關係換為統計術語便是「聯結」和「相關」的關係。李祥林把之引入金融分析,指出一間發行債券的公司倒閉,對另外一間甚至 多間相關企業必然帶來衝擊。李祥林的計量模型提出一項創新的觀點「time-until-default」(直至違約〔?〕),描述在一定經濟環境下,公 司倒閉的相關聯結性。
李祥林的研究,刺激了信貸衍生債券市場的高速發展,其勢有人稱為「爆炸性」,帶動一種新興衍生金融工具「信貸違約掉期」(CDS, Credit Default Swaps)。從此角度,李祥林對金融業的貢獻不下於馬可維茨。
在 傳統市場,投資者購進債券,獲得固定孳息,同時承受債券發行企業或政府可能破產無力付息及屆時無力贖回即違效的風險,CDS等於把債券持有者的風險賣掉; 由於債市數額以萬億美元計,擔保債券不會違約的CDS幾乎是無限制地發行。李祥林適時地提出一個模型,幫助CDS的投資者在特定情況下能準確計算回報、定 價、計算風險及應採取什麼策略以降低風險,等於為結構化的信貸衍生產品的估價和風險控制提供定量化的有效工具,有了這套準則,CDS發行及成交大增;而把 不同種類的CDS滙集而成的「債務抵押債券」(CDO-Collateralized Debt Obligations)應運而生,金融機構把CDO以債券形式賣給散戶(下游投資者),那等於把風險以傳統最穩健的債券形式賣給小投資者。在風調雨順的 日子,CDO持有者可獲比債券孳息高的利息,是不錯的投資,一旦形勢逆轉,CDS的「現金回報」驟降,市場風雲變色,投資者全軍覆沒,金融海嘯由是而起!
二 月二十五日《Wired》月刊發表名記者沙爾蒙(F. Salmon)題為〈災難的處方─摧毀華爾街的公式〉(Recipe for Disaster-The Formula That Killed Wall Stree),歐美傳媒紛紛轉載,網上且有令人愈讀愈糊塗的中譯本。文章指出在不久前,因為帶起一個新行業令金融市場狂旺的李祥林,是諾貝爾經濟學獎的熱 門人選;可是,自從○八年三月次按問題浮現以至七、八月間的危機驟起,李祥林公式成為令華爾街步入絕境的禍首!這種說法當然非常偏頗,那便如武器殺人但殺 人者非其發明者。財迷心竅、貪婪無厭和不負責任的華爾街炒家利用所僱用的「火箭專家」讀通李氏公式後(李氏○五年曾對《華爾街日報》記者說了解其公式的人 不多),濫發CDO,才是造成金融海嘯的罪魁。
歷任歐美金融機構要職的李祥林,○八年做了海歸派,擔任中國國際金融的風險管理部門主管。
赌场老板会关心你的财政状况与输赢,及时劝阻你在走霉运时继续孤注一掷;你可以在醇酒刚酿制时就预测品质,及早买下奇货可居,而不必再等待10年花费巨额金钱拍下“绝世佳酿”;真命天子,很可能就在你鼠标的数次点击下,再不必担心茫茫人海无缘相逢;同样一件商品,你也许要付出别人两倍的价钱,因为人的差别而非商品的差别;航空公司重新定位常旅客,不再奖励飞行里程最多的乘客转而奖励让公司盈利最多的乘客;通过神奇数字,你可以发现竞标中的欺诈行为;雇主在面试时就可以分辨谁将会是适应本企业文化的忠心耿耿的好雇员;企业在迅捷反馈消费者需求时又能做到零库存以节省成本;不相信?Well, 欢迎来到Super Crunchers的美丽新世界。
科技的迅捷发展(Moore's Law & Kryder's Law所揭示的计算机性能与硬盘存储空间的发展趋势)、庞大的数据库(Terabyte、Petabyte数量级)、智能的搜索引擎,使年逾百岁的统计数学工具(Regression、Randomized Trials)青春焕发,朝气蓬勃得向这一愿景奔去。书中,Ian Ayers列举了很多有趣的故事来说明Super Crunchers如何用数字说话,从海量数据中挖掘看似毫不相关的事物之间的内在联系和因果关系,发现隐藏的规律,预测未来。耐人寻味的是,在与 super crunchers的同台竞技中,依赖于经验和直觉的传统专家屡战屡败,预测未来的精准度常常略输一筹。Ian一度想以“The End of Intuition"命名此书,也是因为在越来越多的领域的较量中,经验法则和直觉正节节败退给数字分析这个事实。但在其后的章节,他也指出,数据决策方法的兴起并不代表直觉的末日,它们是相辅相成的互助关系,因为敏锐的直觉能够指引我们去发现问题、提出问题,而数据挖掘则能够分析问题、检验直觉。
不可否认,Super Crunchers在犯罪学、教育学、医学、经济学、政治学等各领域攻城掠地,在力图改变以往决策模式的同时,也掀起权力更迭的大潮。他们的崛起威胁到很多传统职业的权力、地位,以及受尊重程度,既得利益者对其的否定和抵触自然不难理解。此外,除了人们因循守旧的惯性,数字化进程对公民隐私权的侵蚀也是抵触和恐慌情绪蔓延的重要源头之一——你的一切数据、信息尽在掌握中,有人比你更了解你自己的行为、意识甚至潜意识。不过,人类发展史也一再揭示了“顺我者昌,逆我者亡”这一规律,未来,属于那些能够在直觉和数据之间游走自如的super crunchers,因为他们比传统专家和电脑都看得更远、更准。你要做的,是克服对数字、公式的望而生畏,努力掌握基本的统计数学概念和工具,改变自己的思维、决策方式,做一个站在浪尖风口的弄潮儿,而不是被潮流吞噬的溺水者。
阖上书本的最后一页,我脑中不禁浮现狄更斯广为流传的一段话 “It was the best of times, it was the worst of times; It was the age of wisdom, it was the age of foolishness; It was the epoch of belief, it was the epoch of incredulity; It was the season of Light, it was the season of Darkness; It was the spring of hope, it was the winter of despair; We had everything before us, we had nothing before us; We were all going direct to heaven, we were all going direct the other way”...
Some useful concepts in the book:
Super crunching is statistical analysis that impact real-world decision. Super Crunching predicitions usually bring together the combination of data, speed and scale.
* the big size of dataset, both in number of observations and variables.
* the increasing speed of analysis.
* the huge scale of impact
Collaborative filters are examples of "the wisdom of crowds":
* the collective predictions are more accurate than the best estimate that any member of the group could achieve.
* a kind of tailored audience polling.
* preference database are powerful ways to improve personal decision making.
But, there is also a social cost to exploiting the long tail:
* the more successful these personalized filters are, the more we as a citizen are deprived of a common expereience
* expose citizens only to information that fits with their narrowly preconceived preferences.
The core of super crunching techniques:
1. Regression:
* a statistical procedure that takes raw historical data and estimates how various causal factors influence a single variable of interest.
* not only make predictions but also are able to simultaneously tell you how precise the prediction is.
2. Randomized trials:
* having a computer flip a coin and treating prospects who come up head differently that the ones who come up tails.
* the sample size is the key: after randomization makes the two groups identical on every other dimension, we can be confident that any change in the two groups' outcome was caused by their different treatment. -- treatment effect.
* the process of randomization creates matched distribution.
3. Neural Network:
* computer can be programmed to update their reponse based on new or different information.
* neural network is a series of interconnected switches that receive, evaluate and transmit information. Each switch is a mathematical equation that takes and weighs multiple types of input information.
Regression versus Randomized trials:
* Regression lets the researcher sit back and decide what to test after the fact.
* Randomized trials require to hypothesize in advance before the test starts.
* Regression are used for identify the target group.
* Randomized trials are used for test the impact of one specific treatment.
Regression versus Neural Network:
* Regression need to be specified the specific form of the equation in advance.
* Neural Network let the data pick out the best functional form from massively interconnected set of equations.
* Compared to plain-old regression analysis, neural network is more flexible and nuanced.
* The subtle interplay of its weighting schemes in neural network leads to the biggest drawback of neural network: it can't identify which single factor will impact on the prediction result and how it will impact; it can't tell the confidence intervals of its prediction.
* The overfitting problem in neural network may hinder the predicting capability.
Super Crunchers 这本书向我们展现了现代人,或者说现代的西方学者,是怎么研究社会科学的。在我国,常常是很多人因为感到数学不好学而去学社会科学,比如说去学法律。这样自然选择的结果是产生了一大批像李银河这样感情充沛而不切实际的所谓学者。然而现在最领先的西方学者已经抛弃了过去那一套抱着悲天悯人的心态空谈理论的研究方法。如果你去读他们的论文,你会发现其中到处都是图表和数学公式;如果你去观察他们的工作,你会发现他们大部分时间不是在写字,而是在编程。
法律领域内有一个非常经典的问题:给犯罪分子更长的刑期,是否会增强对他的改造,从而减少其出狱后的再犯罪率?在以往,人们可能会从伦理,道德,心理学的角度去分析这个问题。有的人可能会举出各种例子来证明他的论点,然而这些例子往往是非常极端而没有代表性的。这个问题直到最近才得到一个有说服力的答案。
耶鲁大学的Berube 和 Green 的研究完全基于数学统计。联邦法院总是随机的往不同的辖区派法官。有些法官倾向于重判,给长刑期;有些法官倾向于轻判,而随机过程决定了每个法官倾向于总体面对类似的案件。这样一来,可能完全相同的犯罪事实,有的犯罪分子比较幸运就获得了较短的刑期,而不幸的就会刑期较长。作者通过对一万多名犯罪分子记录的统计分析,结论是,刑期长短与再犯罪率无关。如果没有这样的统计数据,如果没有法官的随机指定,像这样的问题可能永远都无法解决。
统计是一个非常强大的研究社会问题的手段。NCAA篮球中有没有球队参与赌球?拉斯维加斯的一个赌博项目是每场比赛的胜负分差(Point Spread),也就是我们所常说的让多少球。比如宾夕法尼亚大学对哈佛大学,赌场开出的分差是14.5分,也就是说如果你押宾大,他们必须赢至少15分你才能赌赢。如果你考察每场比赛的实际分差,和赌场事先开出来的比赛分差,其相差值几乎完美地符合正态分布(平均值是0)。这样一来,正好有50%的时候,胜者实际赢了对手多少分比赌场预测值高,50%的时候比预测值低。也就是说赌博的赔率几乎是50%。这种50%概率正是赌场最喜欢的赌赢概率。
然而问题是,如果你考察那些胜负分差超过12分的场次,那么其分布就不是完美的正态分布了:有53%的机会,胜队实际取胜分差会比预测值低。为什么会出现这种情况?宾大学者 WOLFERS 猜测,当稳操胜券的时候,胜队会故意放水一点,去操纵比赛分差来影响赌局(术语叫做 Shave Points)。也就是说使用统计方法,你甚至不需要任何直接的证据就能发现有人参与赌博。
类似的手段可以应用几乎任何社会领域。比如说婚姻问题。传统的婚姻问题专家判断一对夫妇是否会离婚,成功率只有53%,只比瞎蒙高一点。而最新的方法,听一对夫妇之间的交谈15分钟,专家就有能以95%的准确率判断他们未来15年内会不会离婚。其所使用的方法,是给这15分钟的交谈录像,然后几个人坐下来看录像,一个画面一个画面的分析其中人物的细微表情和语言,然后把统计结果输入一个事先做好的复杂方程之中,这个方程会告诉你该夫妇离婚的可能性。这个方程是怎么设计出来的呢?用大量的数据回归出来的。
统计方法能够大行其道的根本原因是现在网路和计算机技术的提高,特别是便宜的海量存储给大量的数据分析提供了可能性。现在指导社会科学的先进文化是理工科思维,先进生产力是统计模型,计算机和海量的数据。
这种通过分析海量数据来预测和理解社会问题的方法被人称为 number crunching,现在甚至已经有了专业的公司专门为商业公司干这个事情来预测顾客行为。这样做的一个结果是商家可能比你自己更了解你。比如你从 Blockbuster 租了一盘 DVD,Blockbuster 可能比你更了解你不按时归还的概率。
一个典型的专业公司是 Teradata。它为65%的世界顶级零售商,70% 的航空公司,和40%的银行服务。他们的一个典型业务是判断哪些老顾客可能会因为一次不愉快的服务经历而离开你们公司。Continental Airlines 就专门有人做这个。比如一次航班误点或者行李丢失事件发生之后,如果统计分析系统判断某个长期顾客有可能要因此从此不飞 Continental 了,这位客户就会得到特别好的照顾。
甚至赌场也这么做。每一个顾客入场玩都刷卡。他们根据每一个顾客的收入,年龄,以往赌博记录,居住地等等计算该顾客的 pain point - 也就是此人一晚上最多输多少钱下次还能来玩。一旦发现某位顾客今晚输的钱已经接近 pain point 了,就会立即派服务员过去邀请他免费吃顿牛排停止赌博。
这件事情的最可怕前景是,商家将会可以根据顾客不同的价格承受能力,给每个顾客一个不同的价格。
传统的社会专家靠直觉,甚至是个人感情好恶来做研究,而未来属于数字。但我国在这方面可以说是相当落后。我国"主流经济学家"经常鄙视那些玩数学模型的海归,人们不习惯用数字说话。
更不利的一点是,我们可能根本就没有数字可以用。我国的统计水平可以说是极差,一个最基本的GDP数字居然都能随便变来变去。在这种情况下你怎么才能很好的做出决策?我们看NBA比赛,无不赞叹美国人对数字统计的热衷:这是他的这个赛季的第几个两双,如果他两双了球队获胜的概率是多少,等等等等。量化思维必须被培养成一种习惯。从这个角度讲,"吉尼斯世界纪录"的最大贡献可能是培养了人们尊重数字的习惯。
没有数字就没有真像。
本书作者作者是耶鲁法学院的教授,此人擅长用计算机做统计研究。
昨晚,终于把《超级数字天才》看完,看到很晚。
大概读了一个星期的时间,读的过程中,一直觉得这是一本很枯燥,很罗嗦的,挺难懂的书。
不过昨天晚上看的时候,最后一章----讲的是超级数字天才和经验直觉之间的互补,互相弥补----充分地展示数学或者说数字在现实中的应用,更具体点是概率统计在生活中的应用。让我对这本书有了新的认识。
我本来就是喜欢数学的美以及数学的万能,后来因为大学四年枯燥的数学理论学习,让我对数学失去了兴趣。
可是这一次,这本书又再次燃起了我对数学的高度热情。
看完最后一章,我又有了去重新学习数学分析,高等代数,概率统计等等的冲动。
只是再仔细一想,这是一个怎么样的时期,数学的确在我们的生活中扮演中绝对重要的作用,正是因为那些数字,以及处理那些数字的方法,才让我们更加了解自然规律,让世界上的少数人赚取了很多很多的钱。
但是有一点需要知道,全心研究数学的数学家,他们物质上不富有,他们的工作成功被别人利用,让利用数学的人,享受着这个世界。
我很想做一个数学家,很想做一个能够给世界带来变革的数学家。但是我已经落后了很多时间,已经不能有什么成就。何况现在的矛头是要对准物质。
也许我会在以后,足够的经济自由以后倾注我的精力在数学上,倾注在数学美上。
不过,并不是现在就能无视数学,正如《超级数字天才》所说,我们只要用一些数学的公式概念,数学的理念,就能给我们的生活带来很多惊喜,能够让我们对未来更有把握。
这本书相当大程度的冲击了我的观念,现在的超级数字天才们已经可以做到了让我难以想象的地步了,可以预测选举结果,可以预测法官判定结果,可以预测采购结果,等等这些。
我现在唯一有些想法的就是,是不是也可以预测金融市场呢?不过估计是不行的。
但是至少有一点可以肯定,那就是未来肯定是数字运算的天下,不懂这个,一定会吃亏的。
作者是stevn levitt的朋友,也是好几本书的共同作者. 这本身和freakeconomic比起来,深入的讲到了(1)统计的方法(2)对社会的影响.如果你知道regression test , randomized test 和 neural network的话, 会有帮助理解那些分析的背景.
这本书也提供了很有趣的故事. 比如用regression来预测波尔多红酒的质量.但是更重要的是作者提出了一些我们要将来思考的问题 - data driven decision making能不能代替人们的经验和直觉. 如果可以的话, 那些受到尊重的职业是不是要败落? 比如医生,贷款审批人员.
这本书对我来说,开阔了我的视野.很多没有想到的东西原来都是可以用数据分析来达到更好的效果的. 使我开始用一种思考的方法来看待一些日常的生活,同时也帮助我重新思考工作的一些的改进怎么用数据来作为基础.
有一定水准
不过
说话客气一些也是可以写出深刻、风趣的文章的
陈景润以及
那些白首皓经的老人家
比如季羡林
还是值得敬仰的
少数派报告即将降临。
对未来图景的畅想有意思,应该再发挥一下。
当当也是推荐这两本
Wow, numbers are really beyond me.
“你要做的,是克服对数字、公式的望而生畏,努力掌握基本的统计数学概念和工具,改变自己的思维、决策方式,做一个站在浪尖风口的弄潮儿,而不是被潮流吞噬的溺水者。 ”
风口浪尖我不站,我追着它,呵呵
因为还要掉头跑
没有数字就没有真相
社会学的统计倾向往往给人一种科学的错觉,实际上很多内容是无法用数字进行描述和量化的,而可进行量化的部分往往很难涉及到事物的基本运行程序,导致了定量研究的重大局限。而不顾这种局限进行研究,比如我印象看到过类似用定量方法做什么爱情研究的,就会陷入到一种难以前行的尴尬处境。
而如果社会学仅仅满足于数理表面上的相关,而不去研究人类行为的内在模式便使得这门学问如同初中应用题般索然无味。
但几乎所有的社会学理论又都无法避免过多的经验和主观意愿的介入,使得理论的可检验性极低,且与所追求的科学有部分相背。也使得这门学科因长久的纠结于其中而走向落寞。
所以,关于如何研究社会,在我看来,只要去揭示事实便可以了。
"结论是,刑期长短与再犯罪率无关"
难道美国到现在都还没搞清楚“再犯罪率”和什么有关吗?印象中关于防止再犯的经验,美国好像是采取的社区关怀的形式,据说在这方面很有经验了,而且这方面的统计数据也不少。
是吗,有空也研究一下...
人心应该是预测不了的。