人工智能与华尔街金融神话

人工智能的发展出现了一些“AI威胁论”观点，有些人大胆预测“人工智能将侵入及占领华尔街”，认为在未来的世界里计算机将全面取代人类投资者。而基金管理公司Man Group PLC的首席执行官Luke Ellis说，“如果计算力和数据生成以目前的速度持续增长，那么，25年后99％的投资管理将涉及机器学习。”

尽管他的乐观，但人工智能方面所取得的重要成果目前尚未能转化为卓越的回报。据Wired称，过去几年里定量基金的平均表现未能超过对冲基金（而对冲基金的表现则未能超过股市）。

大多数人都不知道人工智能——特别是金融领域用的人工智能——在深入主题专业知识方面缺乏应用，因而不能创建干净的数据及与之相应的关系，而这却正好是任何成功的投资战略或人工智能的基础。在围棋比赛里胜出固然有其意义，但现实世界并非是在严格定义空间里的一场棋赛。在现实世界中，人类改变规则、违反规则，有时候甚至不存在规则。目前的人工智能在没有大量人为干预的情况下是无法处理真实世界里各种状况的。

人工智能与华尔街神话

人工智能被过度炒作及误读：系统资金表现不佳（红线：系统基金；蓝线：对冲基金）资料来源：Preqin／Wired

寻找人才

时下人工智能最大的问题之一是，具有足够主题专业知识的人员与建立人工智能的程序员之间缺乏交流兴趣或不知道如何交流。程序员对那些自己提交给AI的数据并不理解，而分析师则缺乏对AI技术的了解，因而无法知道程序员需要了解哪些源数据及如何解释所得到的结果。

这种脱节造成了人工智能在金融和投资应用里众多的公开问题：

· 大多数AI公司做的是将大部分资源用于数据管理和数据清理而不是用在技术上。

· 机器每每找出一些无效的虚假相关性，或是找到的相关性仅在过去有效，但不适用于将来。

· 许多人工智能系统成了“黑匣子”，只是给出投资建议，却并不说明机理或策略是什么。如果人工智能不能向人类表达其“思考”方式，那么投资者怎么会将大笔资金交给它处理呢？

金融界非常缺乏具备弥合该鸿沟的技能和知识的人，他们是金融界的宝贵人才。90％的金融服务公司都开始做人工智能技术的研究工作，这些公司都在这个稀缺劳动力市场里找人才。

笔者曾在题为 “大银行将在金融科技革命里胜出”的博文里提出过，大金融公司将成为技术进步的最大受益者，皆因规模和资源所致。大银行对AI人才支出的承担力最大，而且，他们拥有最大的财务数据库，可以帮助他们的新程序员。

一些银行已经在收罗必要的人才方面做出了认真的努力。瑞银（UBS）刚推出一波AI招聘，摩根士丹利（MS）的程序员和财务顾问则联手打造了“下一步最佳行动”（ “Next Best Action”）平台，该平台提供的机器学习可以帮助财务顾问为客户提供个性化建议。

这些努力将会得到很好的长期回报，但现在却仍处于初期阶段。一众金融机构要真正以有效的方式用上人工智能还有很长的路要走。

人工智能的大（数据）问题

全球的数字数据总量每两年翻一番。数据量呈指数增长，但大多数数据缺乏机器做分析时所需的结构。因此，AI项目收集、清理和格式化数据输入需要无数的人力工时，而AI项目却又是为了减少人力需求。

Virtova公司创始人Sultan Meghji指出，许多AI初创公司至少将一半资金花在数据清理和管理上。每个人都在讲如何教计算机思考，但如何策划用于机器学习的数据集却没有捷径或替代品。

训练人工智能系统需要一套训练数据集作为学习用。训练数据集大致有两种。第一种数据集是相对较小而精确的数据集，但数据集不包含足够多的不同种类的例子，因而有效性不太足。用这样的数据集训练的人工智能在解释训练数据方面非常棒，但却无法处理真实世界的多样化和变幻莫测。

另一种训练数据集很大但不很准确。在这种情况下，人工智能见过大量的例子，不过有时候的数据并不正确，而且人工智能并未得到清晰一致的指令说应该如何回应。用这些较大、但不准确的数据集训练出来的人工智能通常从数据中学到的一致性东西很少，并且能够自主做的事情也很少。

要成功地进行机器学习，训练数据集务必既准确又具有广泛的代表性。换句话说，训练数据需要尽可能多地准确表达现实世界中发生的事情。否则我们怎么能指望机器去学习有用的一致性东西呢？

人工智能的挑战如下：在没有好的训练数据集的情况下，机器无法学习，同时，创建好的训练数据集所需的时间需要大量的时间，大多数具有深入主题专业知识的人往往低估了这个时间。策划好的训练数据集靠这些人，但他们对这种平凡的工作却不感兴趣。另一个方法就是找许多专业知识有限的人员去完成这个工作，但这种方法到目前为止并不成功。

大（数据）问题在金融和投资世界更糟糕

从理论上讲，策划训练数据集在金融领域不应该太具挑战性。毕竟，财务数据报表格式要遵从提交给美国证券交易委员会的官方文件。但任何外行人都很快能看出来，这些提交的文件并没有太多的所谓结构可言（人类往往不遵守规则）。另外，即便存在的结构对于人工智能来说也并没那么有用。事实上，这东西可能还真是有害。

想象一下这个场景，一台计算机想比较可口可乐（KO）和百事可乐（PEP）公司的财务状况。计算机读入可口可乐和百事可乐的财务报表，它怎么能知道可口可乐的“权益法投资”和百事可乐的“非控制性联营的投资”是一回事呢？“留存收益”与“再投资收益”是不是一回事？业界团体为了解决这个问题多年来一直在试图建立一套标准化金融词汇系统。

理论上，XBRL的发展可以解决这个问题。但实际上，XBRL仍然包含太多的错误和自定义标签，未能达到完全自动读取财务报表的目的。即使是最聪明的机器也需要先由具主题专业知识的人类进行广泛的训练后才能读懂财务报告。

如果成熟的技术和专家分析师不能完成上述的配对，人工智能在金融方面的任何努力都注定以失败告终。俗话说，“种瓜得瓜种豆得豆”。简单地将一堆非结构化的、未经验证的数据塞到计算机里，然后指望这东西能提供投资策略，无异于将食品储藏室的食品倒进烤箱里然后指望烤箱会烤出一个馅饼一样。机器再好也没有用，没有正确的准备机器就无法运作。

误报问题

即便财务数据是经过结构化及验证过的，对于一台机器来说可能仍然没有用处，而且人工智能在分辨哪些数据是有用哪些数据没有用时存在困难。大量的财务数据意味着可能出现以下的情况：大量的表象模式实际上只是纯随机性结果。这一现象名叫 “过度拟合”（Overfitting），是个公认的问题，斯坦福大学的机器学习在线课程有一堂课讲到过度拟合。

过度拟合不仅仅是个人工智能问题。人类偏向于看到其实并不存在的模式（启发式），算是人类很难改掉的毛病。但人类至少自己意识到有这个毛病，可以去试图克服它。而精密电脑的意识水平却还没到这一步。程序员将机器设计成怎么寻找模式，机器就怎么寻找模式。

人工智能日趋复杂，过度拟合问题也变得越来越糟。Man Group的定量基金首席数据科学家Anthony Ledford最近告诉记者：

“模型越复杂，解释训练数据时的能力就越强，而将来解释数据的能力就越差。”

许多定量基金现在只是从过去的数据中挖掘模式，然后希望这些模式能延续到未来。而实际上，大部分这些模式都是随机结果或者相应的条件已不复存在。

我们又一次看到人工智能与人类智能配对的必要性。机器比任何人类都可以更快速和更有效地处理数据和查找模式，但机器现在仍缺乏审核模式的智能及缺乏理解模式是否可以用于预测未来结果的智能。

人工智能黑盒

当然，人类在审核人工智能结果时需要理解人工智能是如何思考的。人类需要对机器用到的流程以及发现的模式有一定程度的了解。

目前，大多数人工智能对于潜在用户而言不够透明。人工智能算法通常是一个黑盒子，人工智能接收数据，吐出结果，底层的机理不透明。

一部分原因是，如果我们希望机器能够按照他们所需的规模进行运作，这个问题就是不可避免的。人工智能代码非常复杂，很少有人能完全理解人工智能的内部运作。

事实上，一些复杂度低于人工智能的软件也存在这些问题。10年前，丰田凯美瑞备受意外加速问题的困扰。太多程序员曾为引擎控制软件写过代码，引擎控制软件成了“意大利面条代码”，即是说一大堆晦涩且往往自相矛盾的代码，没有人看得懂，最后出错造成很大的损失。

支持人类的汽车刹车和加速软件都可以如此复杂，那想象一下，诸如财务建模等更复杂的活动会有多么的混乱及多容易出错。一行代码中的一个错误可能会改变系统的整个功能。软件不会停止运行，但却会执行别的任务，而且谁都不知道是这样，到了有人知道时可能已经太迟了。

该问题由于具足够金融专业知识的人与程序员之间的分化而变得更加严重。财务专家不明白软件如何运作，而程序员也不明白财务如何运作。

金融远非唯一存在该问题的部门。《大西洋》报在题为“即将到来的软件启示录”的文章里详细列举了几个大故障例子，这些故障发生的原因都是码农没有正确预测软件所有的潜在用途。由于使用代码的人不知道代码的工作原理，故障时间也就更长。

人工智能只要还是一个黑匣子，其实用性就存在局限。缺乏透明度最终会导致重大及发现不了的故障。而且在缺乏透明度的问题得以解决前，投资者将大笔资金投到他们不信任的项目里是很难的。

未来道路

尽管人工智能面临所有这些挑战，但却仍将进一步在华尔街扩大其影响力。金融公司没有其他办法满足降低成本并改善服务的双重要求。既要在每小时分析提交给美国证券交易委员会的大量公司财务数据，又要满足信托照管责任，科技是唯一的解决方案。

那些了解这一事实并采取了具体措施在科技上投资的公司与竞争对手比较的优势是显著的，这就是瑞银和摩根士丹利为什么成为金融行业首选的原因。

来源：Forbes

编译：至顶网

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）