毒大米和死麻雀的大数据逻辑

据说,20只麻雀吃了散落的大米,死了。

先,有人说,麻雀是吃了有毒大米,中毒死的。

后来,有人说:专家认为麻雀可能是吃多了,撑死的。

再后来,有人又辟谣说:没有人说过,麻雀是撑死的。

再再后来,有人又辟谣说,大米没有毒。

再再再后来,有人又辟谣说,大米还没有卖出去,卖出去的都追回来了。

再再再再后来,有人又辟谣说,还有一部分大米没追回来,但大米确实没检测出有毒。

我们不再说后来了,因为这个故事还没有完。而且,即便被人为的确定终结,好事者也不会就此认为事情完了。

这次的毒大米与死麻雀的事件,看似传言绕来绕去,实际上却是一次典型的大数据分析的实践,从中可以看出,盲目的所谓大数据分析是多么的容易误导公众。

1、我们找到了所有的麻雀了吗?

我们不知道谁在现场数数了,可以肯定当时贪吃了大米的就是20只,如果是很多很多只,那些麻雀去哪里了,为何这些麻雀没有死?

我们做大数据分析,往往号称拿到了所有的数据,但实际上仅仅是能够拿到的那部分而已,也许恰恰是那些我们没有能力拿到或者没准备却拿到的部分,将大大影响我们最终的分析结论。当年,美国总统大选,那么有名《文学文摘》拿到了240万的读者投票意向,最终却预测失败,相反,盖洛普凭借5000个很小的样本就预测成功,也是这个道理。

2、这20只麻雀就是那吃了大米的麻雀吗?

麻雀是否吃了大米,应该比较好检验,但是否正好是吃了这一堆大米,却有点难度。当然,如果是时间比较短,检验起来也应该可以确认。总之,我们要确认大米与麻雀之间的相关性。

大数据分析首先要确认事物之间的相关性,而且要密切相关,一对一的直接相关,如果我们仅仅是把毫不相关的或者可能有一点关联的事物放到一起分析,最终的结论可能很无聊。比如,有人连续看到中央电视台的《新闻联播》结束的时候太阳就落山了,由此得出结论,太阳落山与新闻联播结束相关。

3、麻雀之死是因为吃了大米导致的吗?

麻雀死了,这是事实;麻雀死之前吃了大米,也是事实。那我们是否可以就说,麻雀之死与大米有关联呢?也不能下结论。我们需要在麻雀的死亡与吃大米之间构建确切的因果关系,也就是说,我们需要找到麻雀之死的死因,而且这个死因是大米之毒。

大数据分析非常关注相关性,甚至对因果关系不予理睬,但这种相关性却往往需要因果关系的支撑。只要是关联密切的直接相关,一定会找到某种因果关系,或者排除某种因果关系。我们做大数据分析,不能仅仅就凭借简单的相关来下结论,必须通过严谨的因果论证,才能被严肃的使用。

4、麻雀之死是因为吃了毒大米导致的吗?

严格来说,麻雀确实有可能是吃大米太多而“撑死”的,我们并不能完全排除这种可能性,所以,专家的话实际上说的在理。即便认定麻雀之死是毒大米造成,还要分析这毒是如何来的,是大米生产过程中还是有人投毒?当然,这就是公安部门的职责了。

我们只有发现了大米有毒,且大米之毒足以致死麻雀,而麻雀也确实是吃进了这些大米,这样才可以下结论“大米毒死了麻雀”,可事实上舆论早已经抛开了这些逻辑,自顾自的开始从中国的食品安全惯性来考虑。

大数据分析中可能发现很多关联,这些看似可贵的发现却多数都可能是无用的,而且,有些可能是毫无意义的。我们需要对其进行深入的分析,特别是要建立起一系列的可证逻辑,由此才可能发现对于我们非常重要的线索,但是,我们却往往不愿意采用“MECE”方法,不想把所有的可能性都考虑到,更愿意先入为主的自以为是,而这往往期间是误判的主要来源。

首发于百度百家,未经许可谢绝转载,沟通交流请 @马继华 或加公众号“北国骑士”


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2014-07-09
毒大米和死麻雀的大数据逻辑
据说,20只麻雀吃了散落的大米,死了。先,有人说,麻雀是吃了有毒大米,中毒死的。后来,有人说:专家认为麻雀可能是吃多了,撑死的。再后

长按扫码 阅读全文

Baidu
map