曾经培养过李开复、陆奇,如今还拥有沈向洋、洪小文的微软从来不缺华人技术大咖。
而黄学东一直是这家老牌IT巨头的一线大咖中相当有个性的一位。作为微软公司语音识别领域的领军人物,加入微软25年的老将黄学东至今仍活跃在人工智能领域科学研究的前线。
“我负责的具体范围过几年就会有所变化,但是有一件事情没变,我是微软语音技术的创始人,微软的语音识别、语音合成技术都是我一手创建出来的。”对自己成绩足够自信的同时黄学东对于技术本身又表现得足够谦逊,真正的自然语言理解还需要更长的路要走,那才是人工智能真正的皇冠。
假装听懂人话
黄学东有一连串响当当的头衔。
他是国际电子电气工程师学会(IEEE)和美国计算机学会(ACM)的双科院士,也是微软认知工具包CNTK的缔造者之一。2016年他被美国《连线》杂志评选为全球创造未来商业的25位大牛天才之一。
同时,黄学东还是微软全球技术院士,这代表着微软技术人员的最高荣誉,现在全球也仅有20多人获得这项殊荣,而黄学东是目前微软唯一的华人技术院士。
但是这一切头衔面前,让黄学东目前最满意的成绩是在今年3月份,他带领的团队在机器翻译领域拿下一项里程碑式的成就:其研发的机器翻译系统在通用新闻报道的newstest2017中译英测试集上,达到了人工翻译水平。
“微软机器翻译第一次达到了媲美人的水平,这是非常有历史性意义的事实。语音和语言是人类进化中重要的东西,而现在计算机第一次在翻译质量上超过专业人士的水平,这对人类文明的进展来说是很震撼的。”黄学东这样解释道。
但上述成就对于黄学东所在的团队而言,其实是不断挑战的结果。
2016年,微软率先实现语音识别系统5.9%的低错误率,在Switchboard对话语音识别任务中已经达到人类对等的水平。
2017年8月,黄学东所在的团队奖又将上述对话语音识别词错率降低至5.1%,创造了当时该领域内错误率最低纪录,首次达成与专业速记员持平而优于绝大多数人的表现。
这意味着,如果让一个人来翻译,或者把错误率整出来,那绝对达不到5.1%,这是一群人联合攻关才能做到的水平。
黄学东的观点是,从研究角度来说,这个意义十分重大,即便是0.1%的差距,无论是运算量还是时间,耗费都是巨大的。
黄学东深信“对话即平台”,“语音交互的发展是一个自然的过程,这是因为语音交互是一个无需触碰设备即可完成的体验,它可以让人摆脱设备的枷锁。”
目前,微软已经将机器翻译技术落地。
但高计算量、噪音问题、理解力这三个问题,目前还是限制了语音交互在实际应用场景中的效果。
“虽然如此,但是语音交互毕竟已经可以落地并产生了商业化应用,‘机器听懂人话’这个目标已经基本实现。”但黄学东认为机器翻译是位于感知到认知之间的一个过程,因为它可以“假装”听懂,翻译出来的效果还不错,但实际上它并没有听懂。
语音交互的难题
机器翻译上从达到人类水平到超越人类水平,在业界一度被解读为人工智能在研究领域的突破性进展。
但是现有大多数硬件与智能服务的交互体验仍有很大缺陷。黄学东认为这应该归于在“语义识别”方面大家还在止步不前。“我们在教计算机不仅是转录口语,而且要了解话语的意义和意图方面仍有很多工作要做。从识别语音到理解话语,是语音技术的下一个主要挑战。”
黄学东认为在没有突发事件的情况下,现在的机器翻译可以做到基本可信、基本可达、基本还算比较雅。但是如果出现突发事件,机器翻译出错误会出得比人类更离谱。而最好的方法是在机器转录翻译的时候,有人在旁边看着,有错误就给纠正一下。
在黄学东看来,语义理解是语音交互中最难攻克的问题之一。他指出,这是因为语音理解方面的标记非常少,而且也没有公认的标准,所以要通过非监督式学习来攻克这个困难,但是,非监督式学习目前还在探索阶段,亟待突破。
“我们现在还没有达到,什么时候达到也不知道。”黄学东可以肯定的是,强人工智能一定是由自然语言理解、感知驱动的,让计算机能达到人的知识获取能力,可以通过阅读自动获取知识。(第一财经)