导航↓ 相册|收藏博客|加入友情链接|给博主留言
畅享博客 > 博文的天空 > [原创]数据的诡计
2016/5/12 12:45:14

[原创]数据的诡计

 

 现在的企业大多数都很重视数据;每天不同职能的上班族都会跟数据打交道,例如,财务数据,客户数、会员数、页面浏览量、商品、库存、营销活动等各种业务数据。数据是客观的(?),但为什么常常有人说被数据误导呢?

 原始数据是中立的,会让人产生误解的是“人”。相关人员误解数据有可能是分析前的假设就有问题,有可能是搜集数据的方法不严谨,有可能是不同岗位的人看的角度不同,有可能是分析数据者的分析方法(工具)用错或对业务面了解不够,也有可能是无知,还有个属于暗黑系的叫做“操弄“数据或“扭曲”数据。

 “操弄”数据可以从最开始的数据搜集阶段就下手;比如,心中已经有了立场,于是去找数据来强化自己的论点。美国每到总统选举年,共和党、民主党两大政党为了让选民觉得该政党的胜率较高,于是会发表外部民调做为证明。但是民调挑选的对象却是从本来就支持自己政党的行政区来调访,那么得到的结论如何,可想而知了。

 今年元月底,台湾出现难得的寒流,局部的平地地区甚至降雪。我看到一个电视台记者访问一个卖热米粉汤的老阿婆,见她店里满满的客人,于是问阿婆生意很好是不是天气变寒冷的原因造成的?阿婆腼腆的说:不是啦,刚好是遇到假日,所以生意都会很好啦

 结果记者竟然转身就对着摄像镜头说:店家表示,因为寒流来袭,最近生意比平常增加3。从采访阿婆开始到记者下结论,摄像镜头从头跟到底,中间没有断开,也就是说记者扭曲阿婆给她的信息,当着电视机观众面前睁着眼睛说瞎话。这个例子是扭曲数据的经典之作,生活中,不乏类似的例子。而这些人或公司所以会这样做,是因为心中已经有预设立场或定见,正确但“不能为其所用“的数据会被刻意忽视,直接按立场诠释数据比较快,也比较符合其利益。

 关于操弄数据,在数据的统计里有一种状况,对于全体进行比较得到的结果,和内部小群体进行比较的个别结果,其结论是矛盾的,这种情况谓之“辛普森悖论”。举个例子:

 假设对两所初中A校与B校的同年级学生进行相同的语文测验。以两校的男同学进行比较时,初中A的平均分比初中B的平均分多5分。对两校女同学进行比较时,初中A的平均分比初中B的平均分多5分。那么把全部学生进行比较,初中A和初中B哪个学校平均分高?大家想都不用想,一定是选A学校,是吧?那么我们把它表格化给大家看看(见表一)。

 表一、A校与B校同学分数统计数据

 

 

初中A

初中B

 

总得分

9600

2200

男同学

 

160

40

 

平均分

60

55

 

总得分

3000

11200

女同学

 

40

160

 

平均分

75

70

 

总得分

12600

13400

男女同学合计

 

200

200

 

平均分

63

67

 

让我们再看一个例子,AB两家航空公司在美国5个城市的航班延误率比较(见表二),延误率=Delay次数除以(On Time次数+ Delay次数)},我们可以很明显的看出B航空在每个城市的延误率都高过A航空,但最后合计的结果却是A航空的总延误率高于B航空。

表二、AB两家航空公司航班延误次数统计数据

 

 

A航空

 

 

B航空

 

 

ON Time

Delay

延误率

ON Time

Delay

延误率

圣地牙哥

212

20

8.62%

383

65

14.51%

洛杉矶

497

62

11.09%

694

117

14.43%

旧金山

503

102

16.86%

320

129

28.73%

西雅图

1841

305

14.21%

201

61

23.28%

凤凰城

221

12

5.15%

4840

415

7.90%

 

3274

501

13.27%

6438

787

10.89%

 

以上的状况都在于这样的比较在根本上就是有问题的,必须还要加上其他的数据维度,但本文的主题是数据的诡计,所以,我就不详细介绍以上案例应该如何更客观的进行分析,或是怎样看待上述的数据结果。借由上述案例我要强调的是数据的结果在那里没错,但是在过程中有些细节或相关数据被忽略或被隐藏,它就有了让人断章取义的利用机会。

 比如这两个例子若延伸下去,例子一,B校可以在招收新生时对外说他们学生的总成绩优于A校;例子二则是B航空可以刊登广告宣传它家的总延误率低于A航空,欢迎大家搭乘。

 数据是真实的,但是当关键的比较信息未被披露时,数据就有了被操弄的机会。

在我们工作的职场,常常可见到一些扭曲数据、操弄数据的同事或上司,选择一些分布不均匀的维度,制作出对自己有利的分析数据,来凸显自己某方面的绩效表现卓越,或是弱化某方面不好看的业绩表现。若是公司一时不察,该员工很可能在实际业绩掉落下还受到奖励,或是在业绩检讨会议里躲过批评安然过关。

 以上是从假设人性本恶的黑暗面来看,但还好真实世界没那么多“阴谋”。更多情况是受到考虑不周、部门本位主义、知识能力有限等因素的影响;是以造成了从数据搜集开始,历经后面数据汇整、数据分类、数据分析采用的研究方法、对数据的理解能力、对数据的解读角度等等,任何一个或以上的环节出了偏差或不足,导致结果出现了误导使用数据结论的人做出错误的判断或决策。

 我们不会运用统计学的观念及方法去做数据分析,没关系!但是我们要培养看待数据的逻辑能力,这样可以多少降低数据分析与解读过程带来的负面伤害。

 

 



评论

您还未登录,不能对文章发表评论!请先登录