黄学东：机器翻译离举一反三还很远

　　曾经培养过李开复、陆奇，如今还拥有沈向洋、洪小文的微软从来不缺华人技术大咖。

　　而黄学东一直是这家老牌IT巨头的一线大咖中相当有个性的一位。作为微软公司语音识别领域的领军人物，加入微软25年的老将黄学东至今仍活跃在人工智能领域科学研究的前线。

　　“我负责的具体范围过几年就会有所变化，但是有一件事情没变，我是微软语音技术的创始人，微软的语音识别、语音合成技术都是我一手创建出来的。”对自己成绩足够自信的同时黄学东对于技术本身又表现得足够谦逊，真正的自然语言理解还需要更长的路要走，那才是人工智能真正的皇冠。

　　假装听懂人话

　　黄学东有一连串响当当的头衔。

　　他是国际电子电气工程师学会（IEEE）和美国计算机学会（ACM）的双科院士，也是微软认知工具包CNTK的缔造者之一。2016年他被美国《连线》杂志评选为全球创造未来商业的25位大牛天才之一。

　　同时，黄学东还是微软全球技术院士，这代表着微软技术人员的最高荣誉，现在全球也仅有20多人获得这项殊荣，而黄学东是目前微软唯一的华人技术院士。

　　但是这一切头衔面前，让黄学东目前最满意的成绩是在今年3月份，他带领的团队在机器翻译领域拿下一项里程碑式的成就：其研发的机器翻译系统在通用新闻报道的newstest2017中译英测试集上，达到了人工翻译水平。

　　“微软机器翻译第一次达到了媲美人的水平，这是非常有历史性意义的事实。语音和语言是人类进化中重要的东西，而现在计算机第一次在翻译质量上超过专业人士的水平，这对人类文明的进展来说是很震撼的。”黄学东这样解释道。

　　但上述成就对于黄学东所在的团队而言，其实是不断挑战的结果。

　　2016年，微软率先实现语音识别系统5.9%的低错误率，在Switchboard对话语音识别任务中已经达到人类对等的水平。

　　2017年8月，黄学东所在的团队奖又将上述对话语音识别词错率降低至5.1%，创造了当时该领域内错误率最低纪录，首次达成与专业速记员持平而优于绝大多数人的表现。

　　这意味着，如果让一个人来翻译，或者把错误率整出来，那绝对达不到5.1%，这是一群人联合攻关才能做到的水平。

　　黄学东的观点是，从研究角度来说，这个意义十分重大，即便是0.1%的差距，无论是运算量还是时间，耗费都是巨大的。

　　黄学东深信“对话即平台”，“语音交互的发展是一个自然的过程，这是因为语音交互是一个无需触碰设备即可完成的体验，它可以让人摆脱设备的枷锁。”

　　目前，微软已经将机器翻译技术落地。

　　但高计算量、噪音问题、理解力这三个问题，目前还是限制了语音交互在实际应用场景中的效果。

　　“虽然如此，但是语音交互毕竟已经可以落地并产生了商业化应用，‘机器听懂人话’这个目标已经基本实现。”但黄学东认为机器翻译是位于感知到认知之间的一个过程，因为它可以“假装”听懂，翻译出来的效果还不错，但实际上它并没有听懂。

　　语音交互的难题

　　机器翻译上从达到人类水平到超越人类水平，在业界一度被解读为人工智能在研究领域的突破性进展。

　　但是现有大多数硬件与智能服务的交互体验仍有很大缺陷。黄学东认为这应该归于在“语义识别”方面大家还在止步不前。“我们在教计算机不仅是转录口语，而且要了解话语的意义和意图方面仍有很多工作要做。从识别语音到理解话语，是语音技术的下一个主要挑战。”

　　黄学东认为在没有突发事件的情况下，现在的机器翻译可以做到基本可信、基本可达、基本还算比较雅。但是如果出现突发事件，机器翻译出错误会出得比人类更离谱。而最好的方法是在机器转录翻译的时候，有人在旁边看着，有错误就给纠正一下。

　　在黄学东看来，语义理解是语音交互中最难攻克的问题之一。他指出，这是因为语音理解方面的标记非常少，而且也没有公认的标准，所以要通过非监督式学习来攻克这个困难，但是，非监督式学习目前还在探索阶段，亟待突破。

　　“我们现在还没有达到，什么时候达到也不知道。”黄学东可以肯定的是，强人工智能一定是由自然语言理解、感知驱动的，让计算机能达到人的知识获取能力，可以通过阅读自动获取知识。（第一财经）