经济学家盛洪:大数据需要一把思维方法的刻刀

大数据之所以有价值不是因为其“大”,而是因为可能携带更多的结构与规则信息。它们淹没在大数据里面,需要有哲学思维,分析方法,和计算手段才能从大数据中“挖”出来。应该说,思考和提炼的过程就是一个剥离无用数据、留下有价值信息的过程。

思维方法就是这样一种刻刀。从这个意思上来讲,恰恰是大数据中包含的少数描述特征的信息才是最有价值的。

最有效的方案是人与人之间的均衡安排,这就是习惯或制度。从新经济中涌现出的习惯或制度,是浑沌的大数据中自发地突显出来的结构与规则,我们应该珍视这自然的启示,并抓紧从中发现形成新理论的信息。

云计算本身的形式才是一种新的智能形式,即不是某一个“脑”,人脑或电脑,是智能的基本个体,而是通过云联贯起来的千万台计算机后面的大脑的结合,带来既强大及多中心的智能主体。

人工智能可能又会掀起一场有关人的认识能力的争论。

图为本文作者盛洪的介绍。

10月13日至14日,我应邀参加了在杭州云栖小镇召开的云栖大会。在去之前,我并不清楚这个会议到底讲的是什么,只知道是阿里巴巴集团召开的会议。参加此会,只因我觉得对新经济的强调不应停留在理论上,如果不了解阿里巴巴在做什么,就谈不上对新经济有现场感。

当然,阿里巴巴的头面人物都去了。最惹眼的自然还是马云,他的讲话充满激情、富有鼓动性,也很概要和战略,也许还有哲理。这是一个成功的商业领导者所应具备的。其他人,我还是第一次知道。无论如何,他们的演讲是值得听的。因为他们不像我这样只说不做,他们不仅讲,而且做;不仅做,而且做得很好。我自然要洗耳恭听。

与我熟悉的经济学语言不同,演讲中充斥着我不太懂的技术术语,和假定众所周知的英文缩写。我一边向内行人请教,一边努力弄懂演讲的内容。原来,这个会的主要目的是讨论和推广阿里云。也就是说,这个会既是一个研讨会,也是一个商业推广会。在云栖小镇的会展中心,除了主会场和分会场,还开设了展览馆,里面有使用阿里云的大小客户的展台。与其说阿里把这两者结合得很好,不如说这两者本来就是互相关联的。没有应用的理论和没有理论的应用似乎都有欠缺。

说实在的,我以前就没关注过阿里云。与云沾边的,就是百度云;这大概是个人应用比较好的云。不过,听了阿里各位领军人物的演讲,尤其是阿里云的创始人王坚博士的演讲,大概明白了阿里云的性质及其重要性。原来,阿里云就是云计算的本来含义,即将成千上万台计算机服务器通过操作系统联结在一起,形成巨大规模的计算能力,再通过互联网出租给企业和个人。如王坚博士所说,云计算和电一样(《在线》,中信出版集团,2016,第100页)。

这有什么优势呢?最主要还是规模优势。如同大规模生产可以降低单位生产成本一样,大规模计算也可以降低单位计算成本。只是两者降低成本的途径不尽相同。在生产领域,存在着所谓规模经济性,即随着设备规模的增大,在技术上就会带来单位生产成本的下降。如一个容积为3000立方米的高炉,就比300立方米的高炉的单位成本要低。又如在机械工业中,大规模生产表现为可以为每个零件专门设计制造加工设备,从而可以提高效率、降低单位成本。

而大规模计算不见得如此。虽然也有个别超级计算机专门提供大规模计算,但这样的计算机很难商业化;我们从没见过有人投资超级计算机,然后再把其计算能力零售的。在微型机出现以后,计算能力主要是以微型机为基础,以微型机的数量累积来解决计算规模问题的。阿里云的核心技术就是所谓“飞天”系统,这是一个将成千上万台服务器联结成一个超级计算机的操作系统。而计算中的一个最大问题,是需求的不均衡问题,即个别高峰期与日常的需求量相差很大,但一个机构或个人是要以高峰期的规模进行配置,才能应对高峰期的需求。而在日常阶段则大量闲置计算能力。

例如,高峰期占全部时间的10%,却需要10倍于日常的计算规模,于是在90%的时间里有90%的计算能力在闲置着。如此算来,计算能力的平均使用率只有19%。大多数分散存在着的计算能力如果都是闲置81%,累加起来的全社会闲置率就是81%。如果现在有一个巨大无比的计算能力中心,企业或个人只购置日常需要的计算设备,而在高峰期租用计算能力,假定这个中心的计算能力平均使用率为80%,则可节约64%的费用。而对于这个计算能力中心来说,由于不同企业的高峰期并不同步,从而高峰与低谷之间的差距将会被缩小,也从总体上减少了整个社会的计算能力闲置。

减少计算能力闲置显然不仅是减少了计算机购置的总量,而且减少了对计算机维护的资源投入。而人工,尤其是计算机人才的成本还是相当高的。不仅如此,集中的维护还具有规模经济性。规模越大,单位成本越低。尤其对于以互联网为基本平台的企业来说,建立、联结和维护一个相当规模的计算能力平台,占其投资和运营成本相当大的一部分。如果要创立这样一个企业,将会遇到更高的融资门槛,和更为脆弱的企业初创期财务状态。在这时,一个超大的计算能力平台,把初创企业的计算能力平台的一次性高额固定投资变为每年支付的租金,这大致相当于折旧率加资金利率,就会化解现金流的巨大压力;提供比企业自己建设平台成本低得多、管理和维护得更好的计算服务,将使无数本来无法创立的企业创立起来。

阿里巴巴在淘宝上的成功,使它的领导者们深刻认识到了一个开放平台的重要性,它是在向社会提供一个降低交易费用的环境的同时,为阿里巴巴带来了巨额的利润。因而他们尽管暂时还看不清云计算所能带来的全部前景,甚至如王坚博士所说“还没有真正弄清云计算是什么”(第008页),但他们坚信,阿里云也是一个开放的平台,它首先为成千上万的新创企业和小微企业提供了一个好的基础设施和经营环境,这些企业的成功也就会是阿里的成功。因为帮助别人赚钱的业务才会有着高度稳定和充足的收入流。

谈到基础设施,谈到环境,这过去似乎是政府要做的事,而阿里只是一个企业。这恰恰说明,基础设施本来就可以由企业提供,只要创造出适应这一服务的商业模式即可。即使在实体世界,官民伙伴关系(PPP)的出现已经证明了基础设施和公用事业可由企业投资和经营。企业进入到基础设施和经营环境服务领域,带来了相对于政府组织的优势。这就是它们承受着成本和外部竞争的压力,不可能怠慢行事;而互联网企业要加个“更”字。因为在互联网的虚拟空间中,任何一个点都不会比另一个点更优越,就不会有在实体世界中看到的地理垄断,就会有更多的竞争压力。

阿里云的成绩似乎就是明证。2013年阿里云收入已达6亿元,2014年为10亿元,2015年则为23亿元;如果把2016年第二季度的同比增长率156%看作年率,则2016年的销售额将达到60亿元。呈现出了加速度。显然,开放平台的战略得到了回报。这将是阿里的下一个增长点。如果与淘宝比,后者最大的特点是直接向小微网店提供条件,直接向消费者提供服务,能看得清楚,也知道大致边界。而阿里云则主要是既向大企业,如联想,海尔,富士康等提供服务,也向成长中的大企业,网络服务商提供服务,也为成千上万的新创企业提供服务。但这些企业主要是服务型企业,它们利用阿里云的环境再向消费者提供服务。似乎在规模上也许达不到淘宝的水平,但使用阿里云服务的企业所能提供的服务好象是没边界的。

当然,王坚博士说“云计算和电一样”,是一个比较恰当的比喻;当他将云计算作为一种公共服务用“国家电网”来比拟时,是指互联网像电网将不同的发电厂联结了起来一样,联结了网上无数的计算中心,再将这些计算能力像输电一样传送给众多分散的企业与个人。然而,云计算与电有一个重要区别,这就是电是一种能源形式,云计算是一种信息形式。电的提供是一种资源量的增加;而信息的提供将会改善资源配置,即使资源量并没有增加。因为正如申农所说,信息是负熵,即一种组织度和复杂度的度量。因而,云计算通过改变配置结构来提高产品或服务的供给量的,同时也就提高了效率。对于一个资源有限的社会而言,这还有改善环境和节约有限资源的意义。

王坚博士说,云服务最重要的特点是让人们“在线”。而在线所带来的信息增量包括两个部分。一部分是输入部分,只要人们在线,他们的一举一动就会被记录下来,形成所谓的“大数据”。如搜索是输入,购买也是输入。在我看来,这就是将过去隐没掉的人的行为轨迹和他们的互动过程详细记录下来。从认识论角度看,这叫作提高了人类的“观察能力”,其特点是精准化和细节化。这就如同一种原材料,经过理性的加工就会成为有用的产品。因而数据是一种与其它资源,如自然资源相区别的资源。不仅因为它是人为的,而且它会随着在线的发展不可抑制地越滚越多。如果说有“可耗竭资源”,有“可再生资源”,互联网产生的数据则是“可增长资源”。而其增长则是按指数级数增长。

在另一方面,云或在线意味着在线计算能力,即在线的输出部分。如果不进行加工,数据这种资源是缺少价值的。对于人们通过在线生成的数据,可以用云上面的巨大计算能力加以搜索和加工,形成对人们行为和互动规则的理解,再反过来用于商业和其它活动,以提高效率和创造新的价值。而这产品不同一般,它不是通过增加其它资源的投入而产生的增量,而是通过对各种资源及其组合的更深入的理解,而更有效地配置各种资源而达成的。由于在线输入数据的精细化和巨大数量,对计算提出了更大规模、更快速度和更强能力的要求。

所以,更严格地定义,阿里云是一种通过云提供计算能力的服务。但这只是一种基础性服务,或如王坚博士所说,基础到人们不再介意的程度。而它真正的价值在于,它提供的这些服务只是创造更大价值的起点。尽管阿里云甘作“基础”,但他们清晰地看到,云计算的真正成功,则在于如何利用这种计算能力。只是这件事来得很突然,数据资源的迅速涌现,使得人类还没有具备相应的“挖掘”和“加工”的能力。这种能力就是把握、分析、理解这些数据的能力,进而形成新的理论、方法和模型的能力,以及用来创造新的价值的能力。这种能力,被阿里人概括为“人工智能”。他们很清楚地看到,在未来的发展道路上,相对于按指数级数增长的数据资源,人工智能就是一个短板。

在互联网市场中,以开放平台模式获得成功的阿里人明智地认识到,他们再聪明、再成功也是有限的,真正的潜力贮藏在他们为之提供服务的不知名的人的头脑中。因而他们也把希望寄托在人脑在一个适宜环境下的无限想象力中。这似乎虚无飘渺,但又最可依赖。在现实中,那些直接将数据的计算和处理用于业务过程的公司最为敏感,所以他们也将这称为人工智能的第一阶段,服务智能。如那些利用互联网和云计算提供服务的企业,如高德地图、饿了吗和一些物流公司等等;当然,首先还要说淘宝和支付宝,它们在推进服务产品的形成和改进过程中,就在不断地增强它们对数据的分析、提炼、建模和应用的能力,也就在推进人工智能的发展。

而阿里人认为的第二阶段,被称之为“显著科技突破”。这种感觉很好。因为服务智能还只是一种被动应对的人工智能。上面说过,云端大数据带来的是人类的新的观察,这在没有互联网在线时是观察不到的,因而需要对这些观察新材料进行思考和提炼。这种际遇,也许只有在轴心时代才会碰到。西元前1000年左右,农业和手工业的发展带来了社会的巨大变化,这就是人们定居下来,形成了相对稳定的人与人之间的互动,并结成了比游猎社会更大规模的农耕社会,人与人之间关系的复杂度迅速上升,他们互动及其结果的信息大量产生。这是那时的“大数据”。这带来了思考的材料,也催生了不少文化大师。到了西元前500年左右,在数代文化精英对这些“大数据”的观察、收集和记录的基础上,产生了轴心时代的辉煌文化。

大数据之所以有价值不是因为其“大”,而是因为可能携带更多的结构与规则信息。它们淹没在大数据里面,需要有哲学思维、分析方法和计算手段才能从大数据中“挖”出来。应该说,思考和提炼的过程就是一个剥离无用数据、留下有价值信息的过程。思维方法就是这样一种刻刀。从这个意思上来讲,恰恰是大数据中包含的少数描述特征的信息才是最有价值的。也许这些新的观察材料需要新的思维方法才能提炼出以前从不知道的结构与规则。也就是说,这会影响到人类的基本精神活动,而不仅是直线式的计算。也就是说,人工智能的关键,不是计算能力,而是知道如何计算。

我们看到阿里云将天文计算和“城市大脑”作为这方面努力的两个标杆。“天文数字”从来就是大数据的代称,但不一定在线,所以这不是王坚认同的云的大方向。“城市大脑”即智能交通管理确实又在线,数据又大。这是一个值得努力的方向。但在这里,我们看到直线式计算的问题。在会议的演示中,我们被告知由于云计算,杭州某区的路口通过时间显著缩短了。这能说明什么问题呢?如果不告诉我们杭州全城的平均车速是否提高了,我们不知道一个区的路口的通过速度能说明什么,也许这是以其它路口的拥堵为代价的。

更何况,从更长期看,即使杭州全城的平均车速暂时提高了,也最终会降下来。为什么呢?因为相比乘公交而言,自己驾车的成本降低了,就会有更多的人买车,直到平均车速降到与以前一样。或者杭州人并不增加私家车数量,但相比别的城市居住成本降低了,也会吸引更多的人进入杭州。于是交通似乎又恢复到了旧的均衡。当然,有一点有区别,这就是同样的交通体系通行的车更多了;因而,这可能才是衡量“城市大脑”的恰当指标。

类似的情况还很多。如认为云计算能够帮助船队更准确地定位海洋中的鱼群,以增加捕鱼量的想法,就缺乏基本的最小种群规模的意识。低于最小种群规模,鱼群就要消亡。直线式计算一般表现为“越X越好”。其实不然,“最好的”是两种或多种趋向之间的均衡。这就是经济学的思维。我们当然肯定现有的人工智能努力的成绩,只是要强调,在人工智能的发展中,经济学也许是一个不容忽视的理论传统。均衡概念更是一个侧重于人与人之间关系的概念。因为短期看,人对自然可以尽情攫取;但对他人是不行的。因为别人很快就会反应。

所以最有效的方案是人与人之间的均衡安排,这就是习惯或制度。从新经济中涌现出的习惯或制度,是浑沌的大数据中自发地突显出来的结构与规则,我们应该珍视这自然的启示,并抓紧从中发现形成新理论的信息。与轴心时代不同,今天的大数据更精准、更细节,数量多得多。如同阿尔法围棋依据数千万、数亿局棋的棋谱形成的计算最优着法一样,充分多且精确的数据将帮助人们在非市场领域进行更为优化的配置。经济学家过去虽然口必称“市场”,却没有几个人看到过价格生成过程,而今天,这都记录在了淘宝或京东的数据库中了。如果我们能够拿到这些数据,经济学也许会改写。例如,网店的增加值率是多少,这有助于我们判断电子零售的交易费用;同一产品的网购价格和实体店价格的差额;跟踪某一产品的价格形成过程与变动;某一(类)产品的市场结构等等。

也许,云计算本身的形式才是一种新的智能形式,即不是某一个“脑”,人脑或电脑,是智能的基本个体,而是通过云联贯起来的千万台计算机后面的大脑的结合,带来既强大及多中心的智能主体。在这时,计算能力已不是服务器计算能力的简单相加,而是形成某种分工格局,有些“脑”(人脑或电脑)更有优势进行某一类计算,从而更专业化于这个方面,而其它脑则专业化于其它方面,这显然会带来脑分工的巨大优势。更可能,这个用云联结起来的智能主体又会在千万台电脑之上产生超出单个脑的结合的“意识”来,出现超然于现有脑之上的“大脑”。

最后,人工智能可能又会掀起一场有关人的认识能力的争论。人类智慧的佼佼者们总是徘徊于这个问题之前。如休谟,康德和黑格尔等。今天看来,不可知论仍是最令人信服的。互联网和计算机极大地延伸了人的感官,但无论多么大,仍是有限的。与无限相比,有限从来就是微不足道的。许多基于大数据的人工智能模型在此次美国大选预测中栽了跟头,也许能给我们一点儿警示。当我们憧憬云的未来时,我们也许先要知道云做不了什么。至少,云计算不能实现用一个中心控制一个复杂系统、还能非常有效的目的。也就是说,人工智能终究不能圆“计划经济”那个虚妄的梦。这不仅因为,复杂系统中各个子系统和个体之间的互动会极其复杂,远超出最成功的云计算规模,而且在于复杂系统的存在本身就是依赖于多中心和局部自治而实现的。

在我们警惕人工智能会带来又一轮“致命的自负”的前提下,我们相信肯定还有巨大的创新空间。回顾一下近两百年的历史就能看出。人类即使只在简单系统的研究上有所前进,就会有了不起的奇迹。只是极不确定。云的概念曾给人带来无限遐想,但云的变动不拘的性质却少有人提及。这就是不确定性。在这里,与保险经济学的看法不同,不确定并非完全负面。不确定性带来的戏剧性正是人类心理需求的一部分,更何况还有可能是意外惊喜。这是人的大脑有可能发生的事情。

2016年11月23日于五木书斋


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2016-11-29
经济学家盛洪:大数据需要一把思维方法的刻刀
大数据之所以有价值不是因为其“大”,而是因为可能携带更多的结构与规则信息。它们淹没在大数据里面,需要有哲学思维,分析方法,和计算手段才能从大数据中“挖”出来。应

长按扫码 阅读全文

Baidu
map