2014世界杯出来很多新鲜东西,很多都是以前没有的,科技领域自然也不会在这场万众瞩目的盛事中落后,大数据预测成为本届世界杯的热门话题。微软、高盛、百度、谷歌等几家公司通过自有的大数据系统对比赛进行预测,虽然预测结果有些令人不忍直视,但在我看来,积极成分很多,大数据应用方面毕竟有了个好的开始。
世界杯的64场比赛,看上去只是简单比分和简单赛果,但变量多到靠人工根本算不出来。仅通过对球队历史成绩和赔率数据进行综合分析这一项,如果靠人工进行计算,假设有现成的精准数据模型,在忽略出错概率的情况下,几亿条数据需要1个人花费数十年时间。好在当前IT计算能力已不是什么问题,这些工作完全可以通过机器来完成。
本次世界杯各家的预测结果是这样的:
小组赛预测准确度:
Baidu:58.33%
Microsoft:56.25%
GoldmanSachs:37.5%
1/8决赛预测准确率:
Google:100%
Baidu:100%
1/4决赛预测准确率:
Google:75%
Baidu:100%
小组赛的预测准确率相对较低,百度以58.33%的准确率拔得头筹,成为预测最准确的公司。而到了后面的淘汰赛阶段,百度则100%算准了比赛结果。通过进一步分析发现,百度的数据模型原理,是导致其准确率居首的主要原因。可以看一下几家的数据模型特点。
百度通过分析469家欧赔公司的赔率数据构建预测模型。
微软通过对Betfair博彩交易市场数据来分析构建预测模型。
高盛预测:通过对1960年以来的正式国际足球比赛数据的回归分析来构建其预测模型。同时,高盛还通过泊松模型分析了每场小组赛的比分情况。
谷歌预测数据主要来自OptaSports的海量赛事数据,预测基于球队实力的排序模型、以及各个国家球迷到巴西的数量和热情度构建的球队主场优势模型
我们从后往前看,谷歌不是这次大数据预测中最差的公司,其数据模型中的数据样本更为丰富,除了海量球队数据之外,连有多少球迷到场,对国家对有多大热情度都计算进去了。这基本上是给自己弄了个不可能完成的任务,变量太多,有一些涉及人文和社会学数据了,现有技术条件太难处理。例如哥斯达黎加人去巴西看球很容易,加纳人去就不容易,这怎么说呢,难道还要考虑经济状况吗?
高盛是本次大数据预测中表现最差的一个,本来人也不是科技公司。高盛的办法有些传统,就是球队成绩的历史数据,这是维度较为单一的数据采样方法。我想起一件事,彩票中的数据分析有没有用?我的结论是有一点用,但没大用。有一年福彩排列三连续20多期中间位置没出现过5,很多人在20多期就杀进去,250元一注包中间的5,结果一直包到52期这个5才出来,倾家荡产者众。从统计学角度看,这个5即便100期不出来也没什么稀奇的,因为每一次的出现概率都一样。从这点看,高盛本次垫底是众望所归的,大数据预测更关键的一点在于变量,而非对历史数据的精细运算。
微软的办法比较不错,只是不错而已。Betfair博彩交易市场在欧洲很有代表性,这个市场交易规模超过伦敦证券交易所,其赔率往往有先知先觉的功能,非常准。不过很可惜的是,微软此次成绩也不是很好。一个主要原因是,微软选取了博彩市场上的头部数据,忽略了长尾数据,数据取样过于规矩,维度单一。如果以Betfair数据为基础,通过注入大量其他数据作为变量,这似乎是条可行的路,但要达到准确效果的话,这个变量会非常大,计算起来很复杂,这并不是一条经济的路。
百度的方法在目前看来比较可行,其基础数据是将所有博彩公司的赔率纳入数据模型。我觉得博彩公司的赔率,本身就是去噪后的结果,虽然赔率各不相同,但都是动态的,是较为优质的数据源,与球队成绩这类的数据完全不同。在这个基础上,百度又将过去5年全世界987支球队的3.7万场比赛数据纳入模型,还加入了一些自己的搜索数据,涉及19972名球员和1.12亿条相关数据。一边是赔率数据,一边是球队数据,以哪个为基础很重要,百度选择了更为动态的赔率数据,最终得出了相对最为准确的结果。本次百度大数据的准确率接近80%,用这个模型对2006年和2010年世界杯的淘汰赛进行验证,准确度也接近75%。这说明一件事,百度的方法在目前是最合适的。
不过跳出这件事来看,其实现在的成绩仍不能证明大数据真的有预言未来的能力,目前的大数据,仍处在相当初级的阶段。大数据其实可以分成三个层次,首先是对现有数据的全面分析,这涉及到模型建立,各项数据在模型中所占的比例和权重如何,这都是要考虑的事情。像高盛那样就等于是走了弯路,不像是大数据预测了,倒像是传统的数据分析。而百度所做的一切虽然堪称优秀,也还是没跳出这个层次。
第二个层次,是对数据变量的衡定和把握,即大数据的智能化。大数据要去噪,要考虑微小变量。例如匈牙利在30多年前横扫欧洲足坛,差一点夺得世界杯,但近20年世界杯赛场上难觅其踪,这件事该怎么算。又例如荷兰多次与冠军失之交臂,其与冠军的距离到底是如德国一样近,还是像中国一样远,都是大数据要做出判断的事情。
第三个层次,是大数据的人文化。在一切数据分析已臻于完善的情况下,引入人文、社会、心理等因素,才能让大数据结果更准确。巴西队实力远胜于美国,但每次遇到美国都是磕磕绊绊,险象环生,这里面有没有心理因素存在。为什么巴西在过去20年进入决赛的时候,掉链子的情况比较多,为什么巴西会1:7输给德国,这些都已超出数据分析的范畴了,必须要给大数据引入人文社会因素,才能加以回答。
虽然大数据跨越这几个层次,看上去是那么遥不可及,但目前至少是起步了,这是个好的开始。对大数据的发展应该更为宽容一些,任重而道远不怕,怕的是不走上正确的道路,因为没有初期那些笨拙的动作,是看不到未来美妙挥洒的。
===================================================
我是微信公众账号gejia021的独立运营者,90%的原创科技与人生感悟文章,独立观点,不屑流俗。期图以一己之力,阐释和说明中国互联网的本质。
微信号gejia021,是覆盖1000万用户的,中国最大的自媒体联盟wemedia成员之一。亦是2013年十佳自媒体,科技原创力30人之一。
我在新浪微博的用户名为@葛甲,在新浪、搜狐博客、艾瑞专栏、今日头条等自媒体平台的用户名均为葛甲,欢迎订阅。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。