2014年3月8日,在大数据领域非常有名的阿里巴巴数据分析灵魂人物车品觉接受了媒体的专访,就数据领域的问题谈了自己的认识,应该对很多正在进行大数据应用的专业人士有很大帮助。
大数据应用很重要的问题是:关于他的定位
大数据里面有一块非常重要的数据,而可能对未来的一两年特别重要,就是我们所讲的“关于他的定位”。我想知道一个人是谁?你是不是你?你在PC前面买了一件东西,不一定代表是你买的,有可能是你的老公或者是你的老婆在用你的PC去买,怎么知道到你就是你?这个在收集数据的时候相当重要。
另外,当我知道你就是你的时候?我下一个问题是你在PC或者手机上做了什么行为?以及你在哪里做了什么行为?这个对数据上的还原非常重要,否则的话很多东西是无法还原的。比如说你买这个东西是在公司里面,在移动还是不移动。我现在非常想知道一个人在用手机来买东西的时候,到底他在移动的还是在定在一个地方买东西的,这个数据对我非常重要。所以对一个点上的定位非常重要。
其实整个大数据来讲,用一个比较简单的说法是,当你去看完电影之后的五分钟,你饿了你想吃东西了,淘点点突然在这个时间给你一个信息说,旁边有个什么茶餐厅很好吃的,那个时候就是最对的时候,只要你送他一个优惠券可能就会去了。所以你到底怎么样去利用这个时间点的信息去推送更及时的东西,不一定是广告,很重要。但是这个首先要知道他准确的地理位置。
当我们讲大数据的时候,并不是一堆的数据,实际上是分为几块很重要的数据。第一个,你怎么去识别一个人,他就是他?另外一个,你怎么知道他在哪里他在做什么行为?第三个,这个行为是什么?再者,我们想知道他当时的关系是什么?这四种数据对未来很重要的。
过去PC的时代,对数据定位是比较少关注,今天会变得越来越重要。一个数据很有意思,在营销上的成功率。如果我们拿到准确的当的环境的话,我们会可以增加132%,如果我们很准确的知道人文数据,就是他是男的还是女的还是什么年纪等等,我们可以增长5倍。但是当我们知道他的行为数据的时候,我们就可以增加12倍。这三组数据是以行为数据最容易识别一个人的,但是他做什么之外还要知道他是谁,然后知道他的环境是什么样。
最重要的东西是三者的交叉。一个三十岁的男生,他在电影院刚出来的五分钟,他刚去看完电影的这个时候,你猜你应该推送一个什么样的东西给他,会让他满意呢?这个精准性对推送的整个营销会产生一种倍数增长的作用。
举个例子:早上的时候,我看见朋友穿了一件T恤觉得挺好看的,所以回到淘宝搜索一下T恤出来1万个结果,然后我老板在我旁边说开会,我站起来就去开会了,开会的时候我还是拿个手机过来看看,再搜这件T恤,结果旁边有个广告跟我说有个手表很便宜了,就买了一个手表。今天,我们大部分记录数据的方法,都只会记录有一个人买了一个手表一百元,但是,实际上整个东西的还原应该是刚才的样子。早上我的朋友穿了一件T恤我去淘宝搜索,我们不知道他为什么进来搜索,特别他为什么会停下来。但是,我们很多时候分析,会假定他停下来肯定是没找到东西,其实不一定的,可能旁边由于环境上的影响,就没有去再继续搜索了。后来时间许可之后,我拿个手机出来,问题是这个手机跟PC是没关系的,还以为另外一个人进来,因为我没有留下烙印,跳了一个东西出来说这个手表很便宜,已经把我刚才想找T恤的意图打破了,然后我就去买了一个手表。
整个链条中多少的东西无法还原,整个大数据我们说都很清楚了,其实我们也不是很清楚。所以,不要自己骗自己说,大数据什么都知道。很多的数据,事实上都还原不过来,真实的人告诉你的时候你会发现,是这样的。
昨天我台下问到样品数据跟大数据的关系,很多人在鄙视样品数据了,认为已经有大数据了,没必要发一个问卷出来问一下人家。但是我觉得,其实我们很多时候是用问卷的方法来找出一些方向,再用大数据来验证。有时候,大数据里面看到一些数据无法解释,会找一个问卷来去问问。因为什么?态度是没有办法用行为数据来知道的,就是一个人的态度只能在你一对一或者真的是问他的时候才能问出这个态度。所以,用样品数据可能会找到一些方向,在大数据里面寻找这个可能性的结果。
不要因为大数据出现之后,我们就对小数据或者对样品数据突然之间就据的很鄙视。没有必要鄙视的,其实都是一种工具。其实,大数据让我们用更多的角度来看一件事,并不是万能的。其实大数据并没有这么厉害,但是我们在努力,让大数据能再推到可以服务更多的社会大众。
心理状态数据很重要,但用起来很难
我们记录一个人是偏向于白天买东西还是晚上买东西,买东西的时间点到底习惯是怎么样?我们也把这个叫做他的心理状态,当时所买这个东西的心理状态,我们还没有到这个层次,但是有些大数据的美国专家已经到了这个层次,他的心理的状态对这个购买的影响,但是我们没有到。
一个数据没有人的属性的时候意义小
以前为什么要记录线下的交易数据呢?因为他想比较,比如说我是联华,同一个地区我卖的是不是卖少了,他买了一个饼干,这种类别的饼干卖得好不好?你是这种类别的饼干卖得好不好?他们会对一下,这是纯粹交易的情况会对一下,但是很难关联上这个人。
我们走访一些线下的企业,有些企业居然把自己三年前会员数据丢失掉了,我说三年前的数据能不能拿出来看看,他说没有了,因为没有用。识别一个社会学的数据极其重要,否则下面很多数据根本关联不到这个身上。
在大数据里面,近一年开始有很多人提出来,数据是有生命周期的。如果三年前的数据肯定不如6个月之前的数据重要,如果我想知道你购买的行为的话,因为有可能三年你的购买行为都变了,可能近6个月比较能知道你的行为,三年前的你的购买数据可能是没有这么有效。
所以一个企业可能要做一个决策,可能八年前数据是不是不要啊?是不是这样一直有价值吗?所以有一个词是非常重要的,数据随着时间的推移慢慢价值减低。
我以前曾经表达一个观点是,数据出来的结果很好,就是能帮我们提升多少的百分比,但是有时候你会发现他不稳定也没有用的。今天能给你这个效果,明天就不能给你,你的供应货来源的原料不稳定。所以数据来源也是一样的,今天来的数据挺稳定的,明天来的数据不稳定的,这样的数据还是不能用的,在我们放在非常重要的数据是不能用的,比如说你决定借钱给一个人,可能明天数据不稳定,产生出来的伤害更大。
端到云、云到端整个数据是流动的
从我个人的理解来讲,云有两个很大的功能,一个是他的计算能力,一个是他的储存能力。端是终端,手机、PC,将来如果是穿戴,所有都是端。从云到端这个地方来讲呢,能不能利用云的计算能力与他的储存能力,快速来计算东西给到端去用,我认为他是非常考验这个云上的计算能力跟储存能力的。
如果我们做了一个数据模型,数据模型是说,我能猜到一个人在他现在这个行为里面,有人用了他的手机,但是用这个手机的人并不是他的。在这种情况下,能不能停止他的手机使用?
就是,实时能从计算上知道,现在用手机的你并不是你,并不是平常的你。这个能力如果在端上使用的话,云那边肯定要非常快速的计算,所以他的计算能力非常重要。
因为端那边已经收集了一些数据,他现在可能人在美国,但是三分钟之前用这个终端的时候其实还在中国,为什么?一个人怎么样可以在这边一个小时之后飞到美国呢?如果这个是支付系统知道了这个事情的话,云就通知端要停止到这个手机。
但是端到云的时候,他是收集及时的数据给到云那边,让云那边能够存储关于判断刚才这件事情的能力。所以端到云、云到端整个数据是流动的。端的能力在于收集,云的能力在于计算存储,这两者之间是出现数据的流动的。仅仅从数据的角度去看,都是用我刚才的那个方法来讲。端来讲是知道当时当下发生了什么事情,把他传到云上,云把他存储而且计算,计算当时那个地方到底有什么东西不动的,然后再传到端上整个东西进行一种循环。
运营商的数据量巨大但做得不好
对于大数据,我觉得垄断是很难的。中国来讲,数据量最大的并不是阿里,有一些公司数据的量也很大的,比如运营商。所以只是说,有两种东西要看的,一个是计算数据的能力,管理数据的能力,这个其实数据量大到某个量之后,后面的两者更重要。就是让你盘点一下你今天的数据的时候你就发现难了。管理一种数据的能力,计算一种数据的能力,收集数据的能力,这三者是要平均的,不是仅仅说用多少大的数据的,管理数据变得越来越重要。
大数据安全不是靠监管
大数据数据量很大,很难仅仅只是用一个监管的方法来决定这个数据是不是敏感,而是应该用一个更好的方法去处理。
讲一个例子,数据安全中最安全的方法就是不给你看,给你看过理论上安全就会有出现风险的可能性了。我们现在的技术能够做到的是不给你看,但是可以给你用。
其中的一些安全策略是这样的,比如说我现在说要调动一些人的名字,这个名字里面有“车品”就两个字,但是我不会给你看所有的人的名字里面有“车品”两个字,但是告诉你答案就是3个。也就是说,我不会给你看到数据,我只给你用这个结果。
关于因果和相关的关系
数据挖掘有两种方式:一种是我们知道了有因果关系,我们用数据来界别这个因果关系以后形成了一个模型,利用这个模型让我们去做一个决策更快,比如说有一个人网上来了一个用户看了这样的商品之后,这个商品以前曾经他看过的,所以今天客户过来是要买这个东西,但是还没有办法下决心,你要不要给他一个红包去刺激他去买,这个是有因果关系的,这样的因果关系很容易在一个模型里面。
另外一个是,有一堆的数据,但是不知道有没有因果关系,但是用数据去处理的时候,发现面有一些现象很有关联性,虽然不能解释但是我可以用。
所以,在做应用数据的时候,有时候我们可以不管因果关系,找出他上一个行为是什么就可以了,不一定找出下一个行为,我们不一定要推送最好的给他的,有时候是给他下一个需要的就可以了。我们不会去求绝对的因果,有些因果不是说要追求于绝对的。
【给数据分析人士提供几个重要数据备案】
1、在阿里数据平台事业部的服务器上,攒下了超过100PB已处理过的数据。这是什么概念?它相当于4万个西雅图中央图书馆,580亿本藏书。
2、在2013年11月11日,阿里巴巴服务器承载的是350亿的交易额,是同时服务超过1700万人,是每分钟产生10万个包裹,是提供相当于1000个义乌商品市场那么大的商品数给你挑选,是需要同时展现3000万部爱情动作片,是支持每分钟100万人同时买单,是相当于同时由9000万个服务员帮你拿货。
3、阿里金融综合了信用记录、成交数额等结构化数据,以及用户评论等非结构化数据,加上外部搜集的用电量、银行信贷等数据,可就放贷与否、放贷额度精准决策。直接弥补了银行业在贷款风险上的盲点,几分钟之内就让贷款发出,其贷款不良率仅为0.78%。截至2014年2月底,阿里小微信贷已经累计为超过70万家小微企业解决融资需求,累计投放贷款超过1700亿元。
4、聚石塔提供了数据存储、数据计算等服务,在保障交易安全,避免遭黑客攻击的同时,还提升了商家处理订单的速度,确保交易顺畅。2013年的天猫双十一,聚石塔处理了全网75%商家的订单,处理总订单量是12年双11的10倍,0漏单,覆盖活跃商家94万,其中有两家订单量过100万。
【首发于百度百家,未经许可谢绝转载】
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 消息称塔塔集团将收购和硕印度iPhone代工厂60%股份 并接管日常运营
- 苹果揭秘自研芯片成功之道:领先技术与 整合是关键
- 英伟达新一代Blackwell GPU面临过热挑战,交付延期引发市场关注
- 马斯克能否成为 AI 部部长?硅谷与白宫的联系日益紧密
- 余承东:Mate70将在26号发布,意外泄露引发关注
- 无人机“黑科技”亮相航展:全球首台低空重力测量系统引关注
- 赛力斯发布声明:未与任何伙伴联合开展人形机器人合作
- 赛力斯触及涨停,汽车整车股盘初强势拉升
- 特斯拉首次聘请品牌大使:韩国奥运射击选手金艺智
- 华为研发中心入驻上海青浦致小镇房租大涨,带动周边租房市场热潮
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。