当前位置:主页 > 创新 > 战略 >
    未来的搜索
      时间:2013-07-22 14:16

  打败谷歌?一项“必应(Bing)PK谷歌(Google)”的比赛在微博上热传。参与活动的用户只要登录指定页面,随意输入想搜索的关键词,就可以通过5轮盲测推选出自己认为最好的搜索结果。第三方独立调研机构益普索统计的盲测结果显示,中国有75%的参与者首选微软必应提供的结果。

  与受欢迎程度不相称的是必应在中国不足1%的市场份额。即使作为后来者的奇虎360也能在宣布进军搜索领域一个月后,轻松拿到了11%的市场份额。微软亚洲互联网工程院院长王永东认为,测试结果显示了微软的技术优势,而他们的宣传是短板。

  为了得到关注度和影响力,必应推出一款新产品“必应影响力(Bing Score)”并在2013MSN时尚影响力大典上发布。必应影响力项目总监李明章娴熟地打开这款产品向记者演示,他指出,本周娱乐版榜单,杨幂和苍井空在前两名的位置已经上下变化了好几次。他正思索是否以此为噱头做一次营销。这个看似普通的工具,其背后却是微软“实体搜索”(Entity Search)技术的新实践。

  实体搜索是相对于关键词搜索而言的。按照李明章的说法,必应影响力是中国团队用实体搜索等技术开发,并植入必应搜索的产品。微软全球资深副总裁、搜索与广告首席科学家沈向洋表示:“社交图谱搜索和实体搜索将成为必应的新机会。”微软正在悄然布局,一种全新的搜索方式正把必应推向搜索的第三次革命中。

  Web末日

  基于传统网页搜索的卡位战已经结束,谷歌、百度脱颖而出,必应在美国联合雅虎取得了30%的搜索市场份额。以未来微软对搜索引擎的野心为界,微软亚洲研究院常务副院长马维英认为搜索历史的三次突破就是三张图谱:网页图谱、社交图谱和实体图谱。

  上世纪90年代,信息检索只有两个衡量的指标:查准率和查全率,最早的搜索引擎AltaVista只解决了查全率就成了当时最富盛名的搜索工具。谷歌的两位创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin),使用PageRank的全新算法,解决了查准率的问题,令当时所有搜索入局者不能望其项背。

  过去十几年,搜索引擎的研究和创新一直围绕排序进行,业内参与者竞争的焦点是:谁的排序相关性更好?

  信息爆炸让改变悄然发生,互联网产生的数据越来越多,没有被纳入搜索引擎的“暗网”以万亿计。人们也往往没有时间和耐心点击第五页以后的搜索结果。“最后只有0.001%是有用功,这是很多搜索引擎面临的资源浪费。”马维英说。

  困境中亦存机会。Facebook去年高调推出“社交图谱搜索(Graph Search)”,你可以通过它搜索好友圈中谁看过灾难电影。Facebook搜索依靠的是10亿用户、2400亿张照片和1万亿次页面访问量带来的数据金矿。

  Facebook的社交行为数据正在满足相当比例的搜索请求。可以基于朋友的“Like”搜索加州的特色餐厅,或是通过朋友的照片寻找一起滑雪的玩伴。除相关的语义研究,社交图谱搜索背后是把用户行为产生的数据,比如点击习惯、Like等运用到极致,它更倾向于解决与生活相关的社交信息。

  微软看到的实体搜索机会对比Facebook的显著进阶是,不仅仅有“人”、“地点”、“照片”等一些最常见的实体,也有如哈利·波特、植物、动物等真实和虚拟世界内的所有实体。

  实体搜索的概念产生于2004年,其前身是微软研究院研发的学术搜索,它试图解决信息检索的精准化。马维英认为,搜索结果的理想呈现形式类似于维基百科。不过维基百科是人们手动整理和撰写的,而微软试图通过自动算法、机器学习、数据挖掘和自然语言理解等技术自动生成类似网页。

  在算法上,实体搜索把传统基于“文本”的搜索改变为基于“对象”的搜索,搜索引擎更加智能地去理解用户的真实需求。例如搜索 “Apple”,它理解成苹果公司的机率最高;如果搜索“Big Apple”,最高的可能性则是列出纽约市。短期来看,实体搜索是对现有搜索精准度的一次改进。

  它真正的潜力显现可能在10年甚至更久之后,马维英描述了未来实体搜索的美好图景:未来仅仅使用搜索引擎就可以自动生成“维基百科”,不仅仅出现奥巴马,而且能够继续生成对他的描述及所有社交好友对他的评价;搜索引擎可以自动区分出有几个名叫“Michael Cohen”的人,并告诉你他们在每一个领域的影响力,而非在搜索结果中混在一起;如果你想认识一个叫“Joe”的朋友,搜索引擎可以画出“六度人脉”,告诉你通过谁可以找到她;甚至还可以绘出家族或者师生图谱,比如微软亚洲研究院院长洪小文和沈向洋都是Raj Reddy的学生;仅通过搜索,你就可以比较微软和IBM在不同时期不同领域的实力对比;甚至一家酒店,可以把酒店的某个房间与开过的会议及开会的人相连接。

  秘密武器

  微软亚洲研究院正在实现实体搜索的未来设想。

  2001年,马维英加入微软亚洲研究院,开始负责互联网搜索和数据挖掘等领域的研究。在过去的几年里,他和团队研发了大量与实体搜索相关的项目,如“人立方”、“学术搜索”、“读心机器人”等,其中,“读心机器人”已转化为微软必应搜索引擎的在线服务产品。

  五年前推出的“人立方”被广泛应用。当搜索“比尔·盖茨”,他的关系网状图将呈现在页面上,包括他的妻子、同事及好友等。这是挖掘作为“人”的实体最广泛的运用之一。

  最直接的工具是“莱特自动问答引擎”。当搜索“詹姆斯·卡梅隆的夫人是谁?”页面马上出现五个人名,以及每一个人的正确比例。实际上,詹姆斯·卡梅隆确实有五个夫人。区别于传统搜索引擎,“莱特自动问答引擎”不是文本的堆砌,而是要点的回答,这部分解决了信息精准推送的问题。

  最有趣的应用是“读心机器人”。用户可以在心中随意想象人或物,然后让电脑来猜。其实现方式是人与机器问题互动,比如用户回答电脑设定的一些问题。不要小瞧了这种看似像打发时间的游戏,你输入的每一次信息都将是机器学习的过程,它发现微软公司全球资深副总裁张亚勤的特征是“面部有颗痣”。电脑获取反馈后会越来越聪明,这令搜索结果更加精?准。

  “特别是在人类实体里,借助规模的用户反馈,能够清理一些自动生成的不准确个人档案,借助用户参与自发形成的与体育、科学、商业领袖相关的实体资料会更加精准。”马维英?说。

  “读心机器人”和“人立方”累积的关系亦被应用到必应影响力中,构成人与人关系的基础,这被看成是实体搜索在中国的一次现实性应用。但这些工具亦存在局限性:“莱特自动问答引擎”并不能告诉你现在正在上映的电影,也无法告诉你附近有哪些好吃的餐馆,“人立方”和“读心机器人”也仅限于名人,无法显示难以在网页中搜索到的普通人。

  以人为核心的实体搜索最大问题是重名,仅中国就有20万个名为“张磊”的人,区分此类信息极具挑战。微软亚洲研究院主管研究员、人立方项目负责人聂再清对记者说,“现在我们对人名、地名、产品名的识别挖掘已经应用到必应中。”

  对于这些局限性的解答,是微软的终极目标。而这一切,远非仅靠实体搜索可以做到。

  马维英尝试提出一个软件行业的“摩尔定律”,即未来搜索引擎是建立在大数据和云计算的架构上,运用机器学习以及用户反馈,影响搜索结果的精度会在某段时间内提高一倍。至于某段时间到底是多久?每天讨论此事已成为微软亚洲研究院搜索团队的一个乐趣。他们确信的是,摩尔定律之于软件的加速度,必然导致产业巨变。

  谁的机会?

  即便拥有了强大的用户数据和社交关系的Facebook,也未能使得Graph Search完全达到精准。面对这个看起来前景无限美好的实体搜索蓝图,亦非几个研究项目就可驰骋沙场。

  看起来前景无限的社交图谱搜索和实体搜索吸引了行业巨头纷纷涉足。今年5月,谷歌利用“Google+”累积的社交关系,推出了类似于社交图谱式的搜索,比如用户可搜索“我在海滩的照片”或是“朋友间谁拍照最好”。

  社交网站基于已有数据做实体搜索是否更具潜力?

  前谷歌中国工程研究院副院长、现云云网的创始人刘骏认为:“这需要区分公开性社交和私密性社交。”Facebook、微信属于私密性社交,用户未必希望所有人都能搜到自己;而Twitter、微博这种公开性社交,则更适合社交化搜索。

  无论是社交图谱还是实体搜索,结构化数据库成为一大难点。那些类似大众点评的垂直类网站,拥有的结构化数据库似乎在实体领域更有机会。一个显而易见的难点是,现在万亿级的网页以及全人类的知识,都在用非结构化的方法在处理。但更多的数据还是处于“信息孤岛”中,并没有相互连接,有效的解决方法在于平台之间使用一种较好的架构打通数据,彼此形成连接点。

  微软使用数据库的最简单方法是战略上合纵连横。通过收购Skype和Yammer,微软拥有了自身的社交数据,Facebook、Linkedin、Twitter等最具社交潜力的公司亦在谷歌与微软的合作间选择了后者。

  真正撼动实物搜索的关键之一是能否解决非结构化数据,以及在数据之间建立联系。自然语言理解、机器学习,甚至是多媒体搜索,都将影响到实体搜索最终的实现形态。“实体搜索现阶段更多停留在概念的阶段,如果没有突破性的进展,很难从根本上改变。”刘骏对记者说,“但也不排除未来发生质变的可能性。”

  手机等移动设备带来了移动互联网的高速发展期,平台和工具的变化引起了用户使用习惯的改变。一个显而易见的变化是“语音搜索”,另外随着三星最新开发的“眼动追踪”技术,以及微软、英特尔在体感计算上的突破,越来越多的电子设备可以感知用户的手势和动作。或许未来的搜索,只需要挥一挥手,就可以如《黑镜》中的主人翁一样切换频道。

  目前的搜索相对被动,而未来的搜索会更加智能,能够根据用户不同的使用场景,用最适合的输入方式实现“主动搜索”。必应植入到Windows、Office的操作系统和软件中成为微软独一无二的优势。你可以在写作时直接在Word中搜索,也可以写一份英文文档时让机器实现自动翻译。

  马维英对记者说:“当某一天,大家不再单纯地谈论搜索引擎,它消失并隐身在一切新一代智能软件和服务之中的时候,就是搜索引擎真正实现突破的时候。”





发表评论

最新评论
 
 
热点文章
浏览排行