AI奇迹短期难再现深度学习技术潜力已近天花板

　　在Alphago与韩国围棋选手李世石对战获胜三年过后，一些迹象逐渐显现，张钹院士认为到了一个合适的时点，并接受了此次的专访。
　　张钹，计算机科学与技术专家，俄罗斯自然科学院外籍院士、中国科学院院士，清华大学教授、博士生导师，现任清华大学人工智能研究院院长。
　　深度学习目前人工智能最受关注的领域，但并不是人工智能研究的全部。张钹认为尽管产业层面还有空间，但目前基于深度学习的人工智能在技术上已经触及天花板，此前由这一技术路线带来的“奇迹”在Alphago获胜后未再出现，而且估计未来也很难继续大量出现。技术改良很难彻底解决目前阶段人工智能的根本性缺陷，而这些缺陷决定了其应用的空间被局限在特定的领域——大部分都集中在图像识别、语音识别两方面。
　　同时，在张钹看来，目前全世界的企业界和部分学界对于深度学习技术的判断过于乐观，人工智能迫切需要推动到新的阶段，而这注定将会是一个漫长的过程，有赖于与数学、脑科学等结合实现底层理论的突破。
　　作为中国少有的经历了两个人工智能技术阶段的研究者，张钹在过去数年鲜少接受采访，其中一个原因在于他对目前人工智能技术发展现状的估计持有部分不同看法，在时机未到之时，张钹谨慎的认为这些看法并不方便通过大众媒体进行传播，即使传播也很难获得认同。
　　“现在很多方面大家看的比较清楚，已露出苗头来了，我现在也接触到很多企业，找我谈这个问题，说明企业在第一线已经发现了很多问题，就想找个机会稍微说说。”张钹对经济观察报表示。

　　一、“奇迹并没有发生，按照我的估计，也不会继续大量发生”

　　人工智能在最近三年时间中受到的关注很大程度来自于其在围棋领域超越人类的“奇迹”，人工智能一次又一次的证明了人类“围棋智慧”优越的脆弱性。
　　容易被忽略的是，尽管围棋复杂多变，但是与牌类游戏相较，围棋的规则简单，信息完全且确定这恰恰是目前阶段人工智能所擅长的。
　　在张钹看来，尽管此前数年，人工智能在语音识别、图像识别、围棋三个领域显现了“奇迹”，但此后，这个“奇迹”再未在其他领域出现，其技术应用的边界和条件已经逐渐清晰。
　　记者：您是如何估计和评价目前人工智能发展的现状？
　　张钹：这一轮人工智能热潮是本世纪初兴起的。首先是出现在学术界。学术界过去对人工智能是冷遇的，但是多层神经网络的出现带来了一些改变，神经网络的理论在上世纪50年代就有了，但是一直处于浅层的应用状态，人们没有想到多层会带来什么新的变化。

　　真正引起大家注意的就是2012年斯坦福的实验（注：2012年谷歌和斯坦福利用多层神经网络和大量数据进行图像识别的实验），过去实验的图像样本数最多是“万”这个级别，斯坦福用了1000万，用多层神经网络来做，结果发现在人脸、人体、猫脸三个图像类别中，这个模型的识别率大概有7%-10%的提高。
　　这给大家非常大的震动，因为通常识别率要提高1%要做好多努力，现在只是把层数增加了，竟然发生两大变化，一个是识别率提高这么多；第二个是能处理这么大数据。这两个变化给大家非常大的鼓舞，何况在2012年之前，人工智能没有解决过实际问题。
　　记者：这种突破的原因是什么？
　　张钹：现在分析下来是三个原因，大家也都非常清楚了，一个大数据、一个是计算能力、一个是算法。认识到之后，一夜之间业内业外对深度学习都非常震动，然后就发生了三件历史性的事件。
　　第一件事是2015年12月，微软通过152层的深度网络，将图像识别错误率降至3.57%，低于人类的误识率5.1%；第二件事，2016年微软做的语音识别，其词错率5.9%，和专业速记员水平一样；第三件事：Alphago打败韩国围棋选手李世石。
　　通过人工智能，利用深度学习、大数据这两个工具，在一定条件下、一定领域内竟然能够超过人类，这三件事情给大家极大的鼓舞。
　　特别是对于业外的人，都认为我只要掌握了大数据，利用深度学习说不定还能搞出奇迹来，于是大家做了很多很多预测，比如在多短时间内计算机会在什么事情上能超过人。
　　但实际上，在这个之后，奇迹并没有发生，按照我的估计，今后也不会大量发生。准确一点说，今后或许会在个别领域取得进展，但是不会像之前预计的那样全面开花。特别是中国市场乐观的认为“中国市场大、数据多，运用又不受限制，所以将来奇迹一定会发生在中国”。
　　结果很多企业在做的时候发现，不是那么回事。从目前的情况来看效果最好的事情还是这两件：图像识别、语音识别。我看了一下，中国人工智能领域20个独角兽30个准独角兽企业，近80%都跟图像识别或者语音识别有关系。
　　记者：为什么会出现这样的情况？或者说在这么长时间后，我们对人工智能目前能做什么有一个清晰的认识了吗？
　　张钹：人工智能在围棋上战胜人类后产生了这种恐慌，“大师才能做的事，人工智能居然能做，我的工作这么平凡，肯定会被机器所替代”。这里需要考虑一下它的局限性，我一直在各种各样的会上谈到不要过于乐观。
　　人工智能能做的那三件事（语音识别、图像识别、围棋）是因为它满足了五个条件，就是说只要满足了这五个条件，计算机就能做好，只要有任何一个或者多个条件不满足，计算机做起来就困难了。
　　第一个是必须具备充足的数据，充足不仅仅是说数量大，还要多样性，不能残缺等。
　　第二个是确定性。
　　第三个是最重要的，需要完全的信息，围棋就是完全信息博弈，牌类是不完全信息博弈，围棋虽然复杂，但本质上只需要计算速度快，不要靠什么智能，可是在日常生活中，我们所有的决策都是在不完全信息下做的。
　　第四个是静态，包括按确定性的规律演化，就是可预测性问题，在复杂路况下的自动驾驶就不满足这一条；实际上它既不满足确定性，也不满足完全信息。
　　第五个就是特定领域，如果领域太宽他做不了。单任务，即下棋的人工智能软件就是下棋，做不了别的。
　　记者：就是说在满足这五个条件的前提下，目前的人工智能是胜任部分工作的？
　　张钹：如果你的工作符合这五个条件，绝对会被计算机替代，符合这五个条件的工作特点很明显，就是四个字“照章办事”，不需要灵活性，比如出纳员、收银员。如果你的工作富有灵活性和创造性，计算机绝对不可能完全代替，当然部分代替是可能的，因为其中肯定也有一些简单和重复性的内容。如果认识到这一条就会认识到人工智能仍处于发展阶段的初期。不是像有些人估计的那样“人工智能技术已经完全成熟，而进入发展应用的阶段”。

　　二、“深度学习技术，从应用角度已经接近天花板了”

　　人工智能在本世纪第二个十年的活跃得益于深度学习领域的突破，深度学习搭建在神经网络之上，而神经网络的概念则脱胎于上世纪50年代科研人员对人类脑神经系统的研究和模拟。
　　近三十年来数学领域，特别是概率统计理论的突破为多层神经网络的落地提供了基础——它们为多层神经网络和海量数据处理提供了有效的数学工具，但与此同时，“黑盒”学习法也成为深度学习的缺陷之一：即使人工智能能给出正确的选择，但是人们却并不知道它根据什么给出这个答案，人们无法像理解彼此一样去理解这个新的智能。
　　图灵奖得主朱迪亚·珀尔指出：尽管深度学习算法具有大脑的灵感，但它们也可以算作另一种强大的数据分析工具，是“曲线的拟合”。诺贝尔经济学奖得主托马斯·萨金特则认为人工智能其实就是统计学。
　　那么，人们是否需要机器给一个解释呢？
　　记者：我们应该怎么去定义目前的深度学习技术路线，它是基于概率学的一个事物吗？
　　张钹：现在的深度学习本质是基于概率统计，什么叫做概率统计？没有那么玄，深度学习是寻找那些重复出现的模式，因此重复多了就被认为是规律（真理），因此谎言重复一千遍就被认为真理，所以为什么大数据有时会做出非常荒唐的结果，因为不管对不对，只要重复多了它就会按照这个规律走，就是谁说多了就是谁。
　　我常常讲我们现在还没有进入人工智能的核心问题，其实人工智能的核心是知识表示、不确定性推理这些，因为人类智慧的源泉在哪？在知识、经验、推理能力，这是人类理性的根本。现在形成的人工智能系统都非常脆弱容易受攻击或者欺骗，需要大量的数据，而且不可解释，存在非常严重的缺陷，这个缺陷是本质的，由其方法本身引起的。
　　记者：就是说通过改良的方式无法彻底解决？比如我们再增加神经网络层数和复杂性或者再提升数据的量级，会解决它的缺陷吗？
　　张钹：改良是不行的，深度学习的本质就是利用没有加工处理过的数据用概率学习的“黑箱”处理方法来寻找它的规律，这个方法本身通常无法找到“有意义”的规律，它只能找到重复出现的模式，也就是说，你光靠数据，是无法达到真正的智能。
　　此外，深度学习只是目前人工智能技术的一部分，人工智能还有更大更宽的领域需要去研究，知识表示、不确定性处理、人机交互，等等一大片地方，不能说深度学习就是人工智能，深度学习只是人工智能的一部分。一直到去年人工智能大会交流的论文还是三分之一是机器学习方面，三分之二是其他方面。
　　记者：学界在这上面还是有一个比较清晰的认识？
　　张钹：我可以这么说，全世界的学界大多数有清晰的认识；全世界的企业界大多持过于乐观的估计。
　　为什么出现这样的情况呢？因为从事过早期人工智能研究的人，大多已经故去或者年老，已经没有话语权。现在活跃在人工智能研究第一线的都是深度学习、大数据兴起以后加入的，他们对人工智能的了解不够全面。
　　记者：如果说每一个技术路线都有一个“技术潜力”，那么在深度学习方面，我们已经把这个潜力用了多少？
　　张钹：科学研究是很难精确估计的，但是深度学习如果从应用角度，不去改变它，我觉得已经接近天花板了，就是说你要想再出现奇迹的可能性比较小了。
　　记者：那基于此，目前商业公司在底层技术和产业应用上还是有很大的空间吗？
　　张钹：只要选好合适的应用场景，利用成熟的人工智能技术去做应用，还有较大的空间。目前在学术界围绕克服深度学习存在的问题，正展开深入的研究工作，希望企业界，特别是中小企业要密切注视研究工作的进展，及时地将新技术应用到自己的产品中。当然像谷歌、BAT这样规模的企业，他们都会去从事相关的研究工作，他们会把研究、开发与应用结合起来。
　　记者：有一种观点认为我们强调的“白盒”（可理解性）它实际上是从人的思维来强调的，但是通过大数据、概率统计工具离散到连续的投射，它实际上是机器的思维，你不一定需要它给你一个解释，只要正确的答案就可以了？
　　张钹：目前有两种意见，一种观点认为智能化的道路是多条的，不是只有一条路能通向智能，我们通过自然进化产生了自然智能，那么我们为什么不能通过机器产生机器智能？这个智能和自然智能不会是完全一样的，条条大路通罗马，我们通过自然进化获得的智能也不见得是最佳的。这个观点我赞成，机器智能与人类不相同，其实是有好处的，恰恰可以互补，发挥各自的长处。
　　但是从长远来看，必须得走人类智能这条路，为什么？因为我们最终是要发展人机协同，人类和机器和谐共处的世界。我们不是说将来什么事情都让机器去管去做，人类在一边享受。我们要走人机共生这条路，这样机器的智能就必须和人类一样，不然没法共处，机器做出来的事情，我们不能理解，我们的意图机器也不知道，二者怎么能合作？
　　记者：就是必须具有可解释性？
　　张钹：是，就是可解释性，你要它做决策，你不理解它，飞机就让它开，谁敢坐这架飞机？所以目前的阶段，车和飞机还是不能完全让机器开的。为什么司机坐在上面我们放心？因为我们和他同命运，要撞死一块撞死，机器和你可不是同一命运，它撞不死，你撞死了。

　　有的人非常脱离实际的去想这个问题，这是不对头的，人类怎么会去那样发展机器呢（注：指把人类的命运全部交给机器）？人类不会去那么发展的，有些人在那边担忧什么机器人统治人类，我说这最多只能算远虑。

（经济观察网）