“阿尔法狗”的野心：颤抖吧金融狗们

期乐会5秒导读：

今日谷歌Deepmind开发的人工智能Alphago再次战胜李世石，3：0领先。

其实，一开始，很多人是不看好“狗狗”的，以为李世石可以轻易把“狗狗”带到沟里，谁知道，不知不觉李世石却被“狗狗”带到沟里去了。

“今天第三盘，李世石的开局策略就与狗狗绞杀，有点，确实很出乎意料之外，毕竟论计算与持久战力，人类是肯定不如狗狗的，结果几乎没有悬念。难道这或者是赛事合约中默契的一种风格测试？” —— 今天人机大战的观战过程中，一位围棋爱好者投资人如是说。

转载来源：微信号大公馆综合

“前两盘的感觉，狗狗的开局是有点吃亏，毕竟开局还是最大程度地可以表现出围棋的魅力所在，围棋不仅仅是靠记忆与计算，还是一门艺术与哲学。但随着棋至中局之后，盘面棋子越来越多，狗狗后半盘强大的计算力优势，以及滴水不漏的稳定表现，已经不是人类可以匹敌。”

如果说，围棋狗狗战胜人类是一种必然，目前除了聂卫平与柯洁之外，相信没有几个人还会存有异议。只是这一天比预期要早来了一些。

“这三盘还是带给了我们很强烈的震撼与启示。从投资角度来说，我也在反省一些既有的根深蒂固的判断与观点，是否真的就合时宜？”上述该围棋爱好者投资人认为。

比如说，投资者是不是总觉得自己有种直觉和所谓盘感？但从狗狗和李世石对战来看，引用“知乎”上的一句话，或者可以帮助回答这一个似是而非的问题：“说到底，所谓棋感、棋风、大局观云云不过是人类在计算能力欠缺时求助的直觉和本能，即理性不足感性补、理论不足经验补。”

对于大盘或者个股走势，过去您所谓的“盘感”，可能不过是多次判断后，潜意识的留存了正确的判断次数，但同时又模糊了错误的判断次数？——再想到当今程式化数量化交易在金融投资领域的发展，是不是已有种令人不寒而栗的感觉。

ANYWAY，未来已经到来。颤抖吧，人类。（文 / 江湖百晓生）

下边两篇报告，通过探究这只“狗狗”的前世今生，再来探讨事件本身所蕴含的意义。

出品ALPHAGO的Deepmind公司研究

文：郑宏达、魏鑫、谢春生、黄竞晶

源自：海通计算机研究 / 公众号“宏达说”

1、人工智能将是贯穿全年的大主题，继续看好人工智能产业链

我们认为人工智能作为计算机下一代的革命技术，有望对现有产业形成极大变革。从语言、人脸、手势到情绪，计算机将能更好地理解人类的行为，也将使人工智能成为更有效的信息筛选和传递工具。

长期看，人工智能的趋势不可逆转；短期看，我们看好容易在下游实现大规模商用化的人工智能技术，包括生物识别在安防、金融、VR人机交互等领域的应用，深度学习在无人驾驶辅助决策领域的应用等

2、Deepmind公司为何受到谷歌青睐

公司创始人拥有神经科学和计算机科学的复合背景

DeepMind是由哈萨比斯、雷格与苏莱曼三人于2010年在伦敦共同创立。哈萨比斯是拥有人脑神经学和计算机双重背景的复合人才，从小就有“神童”的称号，12岁就获得国际象棋大师头衔，在获得剑桥计算机学位后创立了自己的游戏公司，此后他专注于人脑的研究，进入伦敦大学学院攻读神经科学博士。

公司定位非常宏伟：结合机器学习和系统神经学两门前沿科学来“解析智能”，“将人类智力总结提炼为计算机算法，这也许是理解人类智慧的最佳路径”。

公司创立之初，新颖的定位和深厚的学术实力得到了天使投资者的青睐，其中不乏特斯拉老板Elon Musk以及Paypal董事会董事Scott Banister等人的投资。在2014年，DeepMind荣获了剑桥大学计算机实验室的“年度公司”奖项。

以“感知—学习—反馈”方式进行学习并不断进化，具有普适性

DeepMind人工智能的独特性在于以“感知—学习—反馈”方式进行学习并不断进化，所以其人工智能具有一定程度的普适性。大多数传统的AI系统比较狭隘，基本通过事先设定好的规则来掌握某种特定的任务，而不具备解决其它问题的能力。

DeepMind试图创造第一台“通用的学习机器”，就像生物系统一样，通过一组灵活的、适应性强的算法，只利用原始数据来学习如何从头开始掌握任何一种任务。

2015年2月，DeepMind挑战像素游戏“太空侵略者”的图片在《自然》杂志封面上刊登。与之前所有的AI系统，如大名鼎鼎的IBM深蓝相比，DeepMind的算法是纯粹的非精确编程算法，即能通过图像像素点作为数据输入，并从大量历史数据中学习其运行规则。

系统的输入仅仅是屏幕图像和获奖信号，以及玩游戏的操作方法（“上下左右”键），电脑不知道任何游戏的目的，以及获胜的方法。它通过按键来获取反馈（分数），与人类的学习过程类似，系统通过不断的试错来调整神经网络中的权重，最后找到游戏的胜利方法。

DeepMind玩的7个Atari游戏，激光骑士、打砖块、摩托大战、乓波特、Q精灵、深海游弋、太空侵略者的过程中所用的网络深层架构、学习算法甚至参数设置都是完全一样的，最后系统的游戏水平都达到了优秀玩家的水平。

3、ALPHAGO -有史以来第一个在围棋击败职业选手的计算机程序

2014年1月26日，Google宣布以4亿美元收购DeepMind科技。在此之前，Facebook等公司纷纷向DeepMind抛出橄榄枝。最终DeepMind选择了在搜索与人工智能领域最为强大的谷歌，强强联手。

在收购完成后，DeepMind公司的围棋人工智能AlphaGo开始崛起。它下围棋的原理和人类有相似之处，一是判断局部，二是把握全局。DeepMind此前在Nature杂志发表的一篇论文中，也曾有过细节方面的介绍。

简而言之就是，AlphaGo总体上由两个不同功能的“大脑”网络组成：策略网络（Policy network）和价值网络（Value network）。

对弈中，AlphaGo的两个“大脑”协同工作。策略网络负责在当前局面下判断“最好的”下一步，可以理解为落子选择器；价值网络负责评估整体盘面的优劣，淘汰掉不值得深入计算的走法，协助前者提高运算效率，可以理解为棋局评估器。然后，两个“大脑”取各自选择的平均值，做出最终的决定。

AlphaGo作为DeepMind通用型人工智能的杰出代表，其野心远远不止于棋类。在与李世石九段进行围棋对决且取得胜利后DeepMind将竞技游戏作为下一个挑战课题，并且选择能发挥其最大性能的战略模拟游戏星际争霸。

4、DeepMind 人工智能应用领域广阔

DeepMind人工智能应用空间广阔。DeepMind于2月24日与英国国民医疗保健体制（NHS）合作，其技术可以提醒医院护理人员及时注意到那些因为肾衰竭而引发其他并发症的病人。

DeepMind近期收购了Hark，后者是一款旨在取代纸质系统和呼机的任务管理App。未来，Hark将会利用人工智能技术来预测哪些病人的病情会加重或决定最佳治疗方案，未来医院将在保障病人安全方面会有很大提高。

DeepMind组建了“应用研究团队”，专门探索如何将其人工智能技术进行实际应用。目前来看，谷歌内部的各项业务诸如搜索、翻译、图片识别、自动驾驶等应用有望借助DeepMind的人工智能提高水平。

比如DeepMind的一个项目使用16000台计算机组成了一个神经网络，通过对YouTube 上一千万个视频的分析，该神经网络自己学会了识别视频中的猫。DeepMind的通用型人工智能将会大大促进谷歌其它业务的智能水平。

DeepMind完善谷歌人工智能生态。DeepMind使用的是Facebook的开源AI 项目Torch，而谷歌自己的开源人工智能系统“TensorFlow”也已经向公众免费开放。

DeepMind有助于提高TensorFlow的人工智能水平，并且可能作为人工智能的底层操作系统进行普及，谷歌人工智能产业生态有望进一步完善，迅速整个人工智能产业将会加速繁荣。

本文作者：郑宏达、魏鑫、谢春生、黄竞晶。来自海通证券计算机研究团队。报告图文源自公众号“宏达说”。

AlphaGo攻克围棋

人工智能角力资本市场

源自：广发金融工程研究

一、人工智能攻克围棋

2016年3月9日，AlphaGo和李世石之间的围棋人机大战第一局吸引了世人的目光。

李世石何许人也？1983年出生，12岁就成为职业棋手，个性张扬，在16岁升为职业三段之后就宣布不再参加升段考试，20岁那年获得两个世界冠军之后直接升为职业九段（韩国棋院特意为他修改了升段规则，获得一个世界冠军可以直升三段），人称“不败少年”。

李世石力量强大，出手敏锐，善于抓住对手的弱点，有“小李飞刀”之称。出道以来，获得14个世界冠军头衔，是围棋界过去十年的第一人。近年来状态略有下滑，但是仍然是围棋界活跃的最顶级高手。

AlphaGo何许人也？AlphaGo是谷歌DeepMind公司推出的人工智能棋手，在2015年10月因击败旅居法国的职业棋手樊麾二段而出名。

2016年3月9日至15日，AlphaGo向过去十年的围棋界第一高手李世石进行五番棋挑战。比赛采用中国围棋规则，分先下。双方将下完五局，获得三胜者即可获得100万美元奖金。

比赛之前，职业高手一致认为李世石将以5:0结束比赛。李世石本人也信心满满，认为自己将以5：0或者4:1拿下比赛。事实上，电脑只要能够赢一局就已经是对人类的胜利。

然而，出乎所有职业高手的意料。第一局，AlphaGo就击败了李世石。

人类最后的智慧高地失守了。

二、深度学习

（一）AlphaGo是怎样征服围棋的

早在1997年，“深蓝”电脑就战胜了人类国际象棋冠军卡斯帕罗夫，但是在AlphaGo之前，电脑在围棋上战胜人类顶级棋手是不可想象的。

在国际象棋中，我们可以考虑通过穷举法进行计算，寻找最好的一手棋，如下图所示。如果计算机的计算能力足够强，通过穷举，总可以找到每一手棋的最佳下法。

围棋包含19×19共361个不同的落子点，如果考虑通过穷举法来下棋，第一步有361种可能；在第一步确定的每一种局面下，第二步有360种可能；在前两步确定的每一种局面下，第三步有359种可能。那么前面3步，就有361×360×359种可能的局面（即使考虑对称性，局面的可能性也在百万级别），而一盘棋，往往要下到两百多步以上才终局。

因而穷举法来下围棋的话，计算量是不可思议的。据精确测算，围棋一共存在超过10^171种可能性，这已经超出宇宙中的粒子数量了。

正因为如此，此前人们一致认为电脑在未来十年内不可能战胜人类，围棋也被称之为人类最后的智慧高地。既然穷举方法这么难，那么有没有办法降低这种问题的计算量呢？我们可以从穷举搜索的广度和深度上来考虑。“广度”是指每一步需要考虑的可能性数量，“深度”就是对每一种选择，需要往后考虑多少步才能想清楚这种选择是不是好的，也就是给出评估。

假如对于某问题，每一步都有300种可能性，一共考虑50步，那么一共就有300^50种可能性。

A．广度方面的优化：如果我们通过某种方式，将每一步的可能性降为30种，那么我们一共需要搜索的可能性就只有30^50种，只有原来的10^50分之一了。

B．深度方面的优化：如果我们通过某种方式，将需要考虑的步数降为5步，那么我们一共需要搜索的可能性就只有300^5种了，只有原来的300^45分之一了。

可以看到，从深度方面的优化和广度方面的优化，都可以大大降低计算量。

而AlphaGo就是通过两个“大脑”来实现广度和深度方面的优化。第一个大脑被称为“策略网络”（Policy Network），该大脑会模仿人类棋手的落子，在每一种局面下选择最佳的几种可能性；第二个大脑被称为“价值网络”（Value Network），该大脑对每一种可能性进行评估，预测该选择下赢棋的概率。

如果这两个大脑都足够强大，我们可以大大降低计算机的搜索量，使得电脑下围棋成为可能。

这两个大脑都建立在目前火爆科学界的深度学习上。

基于深度学习建立的策略网络会观察棋盘局面，预测人类高手下在不同位置的概率，概率越高，则说明这个位置更有可能是最佳的位置。该网络通过学习百万级的对局来进行训练。

基于深度学习建立的价值网络会评估不同局面上双方输赢的概率，该网络也是通过上百万个不同的局面训练出来的。

（二）深度学习原理

为什么要选择深度学习呢？事实上，在攻克围棋之前，深度学习就已经完成了许多壮举，在人工智能的许多实际问题上，如语音、图像、网络推荐系统、医药等方面都已经获得了重大的突破。

那么，什么是深度学习呢？

首先，我们以一个简单的分类模型为例进行介绍。假如下图左侧有两类点，红点和蓝点。我们需要做一个分类器，判断未知类别的点（无色点）是属于红色一类还是蓝色一类。我们可以基于已知类别的红色点和蓝色点，建立起一条分类的线（右图虚线），将整个平面分成两份，这一过程被称为模型训练的过程。

那么，对于一个新的类别未知的点，我们就可以根据该点和分界虚线的相对位置，判断该点应该是属于红色一类还是蓝色一类。如果点落在分界线的左侧，则更有可能是红点；如果点落在分界线的右侧，则更有可能是蓝点。

在这个问题中，点的横纵坐标是机器学习的“输入”，颜色是“输出”。分类问题是通过建立起分类模型，对于不同的输入，计算出最接近真实的输出。

AlphaGo中棋局的评估也是类似的问题，我们需要针对不同的局面（输入），计算出赢棋的可能性（输出）。

对于稍微复杂一点的问题，线性分类器就不好使了。

如下图左侧的点，我们不可能找到一条直线，将两种颜色的点分开。因此，这个问题是线性不可分的。但是，如果我们能够找到一种方式，将平面上这些点转移（“映射”）到另一个空间中，就有可能找到一个超平面，将这两类点划分开。这个新的空间被称为“特征空间”，点在新空间的坐标被称为“特征”。

一个好的原始数据到特征空间的映射会使特征空间的分类问题变得简单，因此，我们一般通过已经存在的样本来获得这个映射，提取好的特征（根据样本进行模型训练）。

这个映射一般都是非线性的，这种非线性分类器能够解决比较复杂的分类问题。机器学习方面的支持向量机（SVM）、人工神经网络（NN）做的都是这样一件事情。

以上的两种方式，线性分类器和经过特征空间映射的非线性分类器的示意图如下图所示。

随着实际问题趋于复杂，人们发现，有时候我们将数据映射到特征空间还是不够的。如果我们将特征空间的点映射到另一个特征空间，甚至进一步映射到新的特征空间，那么原来不好解决的问题会变得容易解决。

深度学习就是这样一种模型，这种模型将原始的输入数据映射到特征空间（H1）之后，继续映射到更高层次的特征层（H2，H3，……）。隐含层的增多，极大的丰富了模型的表达能力。使得原来不可解决的问题变得容易解决。

但是，要做成这样一个模型，不仅需要足够好的训练方法，也需要百万、千万级别的数据和海量的计算。计算机硬件的发展和互联网的普及使得计算能力和数据量成为可能，共同铸就了深度学习的无所不能。

在AlphaGo的训练中，一方面，人工智能阅读大量的围棋比赛棋谱，进行训练；另一方面，当人工智能学习到一定的阶段后，可以和自己对弈，产生海量的棋谱。

因此，AlphaGo可以一边和自己下棋，一边不断学习成长，战胜人类的顶级高手成为指日可待的事情。

三、量化投资新战场

近日，世界上最大的对冲基金桥水基金将建立人工智能团队，期望在投资市场建立起优势。该团队将基于历史数据与统计概率建立起交易算法，让系统能够自动学习市场变化并适应新的信息。

与此同时，大名鼎鼎的文艺复兴科技公司和Two Sigma也在扩充自己的人工智能团队。

事实上，早在2007年，总部位于纽约的Rebellion Research公司就推出了第一个纯人工智能投资基金。

该公司的交易系统是基于贝叶斯机器学习，结合预测算法进行判断，该系统可以根据新的信息和历史经验不断演化，有效地通过自学习完成全球44个国家在股票、债券、大宗商品和外汇上的交易。下图为Rebellion Research公司的交易系统在全球股票市场的表现。

近年来，通过人工智能进行投资的知名机构还有，香港的Aidyia，旧金山的Sentient Technologies，伦敦的Castilium和CommEq，日本的Alpaca，其中，Alpaca和Sentient声称其核心算法是深度学习。

这种人工智能驱动的基金管理一般不是高频交易。它并不寻求抢先交易或通过行动的快速来赚钱。它寻求的是未来更长时段（小时、天、星期，甚至月）的最好交易。说得更确切一些，机器（而不是人）在选择策略。

从上世纪七八十年代以来，量化投资不断发展壮大，从简单的配对交易发展到越来越复杂的模型。同时，大量新兴科技被应用到资本市场。目前，以深度学习为首的人工智能飞速发展，资本市场也成为各种人工智能角力的新战场。

（广发金融工程研究）

每日精彩，欢迎扫描二维码关注期乐会微信公众平台。

感谢作者辛苦创作，部分文章若涉及版权问题，敬请联系我们。

纠错、投稿、商务合作等请联系邮箱：287472878@qq.com