《小时代3》大热之际,百度进入知识图谱时代

2022-12-06 10:32 啊坚道
118

文/罗超

这几天,百度不断发布新品,让人眼花缭乱。在极简首页之后,《小时代3》的百度知识图谱也在搜索页悄然上线。《小时代3》走红的时候,并不是每个观众都能理清人物之间错综复杂的关系。百度通过掌握的知识图谱数据直接提供清晰的网络关系,可视化并支持交互。笔者注意到该产品的网址前缀为 . 看来百度接下来必然会推出各种独立的“地图”页面,百度将进入知识图谱时代。

1、我们已经从信息时代进入了知识时代

如果互联网要分层的话,大致可以分为四层。

底层是将物理世界数字化的“数据”。二进制存储技术、文件结构和数据库解决了“数据”的问题,今天我们已经进入了“大数据”时代。搜索引擎此时较量的是数据索引量和搜索结果集的大小。

数据上层是信息,数据下层是给机器看的,信息是给人看的。具有逻辑和决策参考价值。数据经过处理后,就变成了信息。信息革命的说法恰恰印证了互联网的核心。是信息。这时候,搜索引擎的核心就是准确连接人和信息。

信息的上层是知识,信息中有价值的部分被沉淀下来,与人类积累的知识体系融合,成为互联网的知识。WIKI百科、百度知乎、知乎等产品都是关于知识的。信息过载成为人类的负担,而知识积累则成为人类的财富。互联网知识图谱远超图书馆等传统知识沉淀方式,具有可观的价值。搜索引擎在知识时代的价值在于帮助人们找到准确的答案。

知识高于智慧。人类根据知识,根据物理世界的规律发现并解决实际问题的能力,概括为智慧。知识是“我知道什么”不足以解决“做什么、怎么做”等问题。有很多人知识丰富,但在生活和工作中却缺乏智慧。但智慧与知识相辅相成,智慧丰富知识,知识是智慧的前提。

我们已经从信息时代进入了知识时代。在信息过载和互联网侵蚀物理世界趋势的背景下,更重要的是解决现实世界中的实际问题。搜索引擎的使命已经转变为连接人和服务,而不仅仅是连接信息,它需要准确回答人们的实际问题,为人们提供完整的服务。知识图谱成为智能搜索的基石。

2. 知识图改变搜索引擎

知识图谱(Graph)全称科学知识图谱,“它展示了一系列不同的知识发展过程和结构关系图,利用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和展示知识及其关系相互关系”。

简单来说,知识图谱就是搜索结果的系统化、关联化和可视化。任何搜索请求都可以得到一个知识体系,知识体系不再只是一个线性的URL列表,而是一个知识节点网络。比如搜索“小时代”可以看到角色关系图,搜索地名可以看到地图、天气、旅游景点等相关信息。

知识图带来了几个变化。一是结果更准确。用户的搜索关键字可能有多种含义。知识图谱能够展示最全面的信息,更有可能击中用户的需求。微博相关话题;三是广深搜索。通过知识图谱建立的关系可以让用户通过交互和点击来扩展搜索的深度和广度。

更准确、更广泛、更深入的搜索是百度一直追求的目标。尤其是在移动搜索蓬勃发展的当下,更需要将搜索做到极致精准,才能降低用户输入和选择的成本。百度极简首页在不需要用户选择频道的情况下推出时,其结果必须足够准确和全面以满足用户需求。这就是知识图谱的能力所在。

本次知识图谱的可视化展示是通过百度内部前端开源产品实现的。

《小时代3》知识图谱的上线,域名的出现,百度极简首页的上线,预示着百度即将进军知识图谱。

3. AND、Bing、知识图谱的不同思路

在技​​术和必应方面,一直在和百度斗智斗勇。在知识图谱方面,这三家公司都有很强的积累。去年,社交巨头也推出Graph进军社交图谱搜索。

2012年,推出知识图谱产品。无论用户搜索的关键词是代表地标、名人、城市、团队名称、电影、专业词汇还是一道菜,“知识图谱”都能将搜索结果的知识系统完整呈现。此外,还有结合+的社交搜索产品Plus Your World。

必应在中国推出人立方社交关系搜索引擎。您可以查看一个人的名字、他的关系网络图和他最亲密的朋友的受欢迎程度。本产品基于全网WEB数据和新浪微博开放数据。由于只能搜索人际关系,脱离了其他知识,人魔方并没有太大的进步。

用户关系图谱

随着Bing的推出,Bing将知识图谱与社交相结合的定位显然显得有些尴尬。因为 Bing 没有自己的社交数据——Space 和 MSN 在这方面都失败了。

Graph是一个基于社交图谱的搜索,你可以搜索“洛杉矶XX街过去一年接待朋友最多的餐厅”等问题。一直没有大的成功,因为只有封闭的社会数据,基于这些数据可以组织的知识,可以给出的结果,可以满足的搜索场景是非常有限的。这只是网站上的一个合格搜索。

用户关系图谱

Bing 和 在图形搜索方面的失败说明社交既不是必要条件也不是充分条件。而百度完全从基于十余年积累的知识图谱和用户数据的搜索出发,利用擅长的大数据和深度学习算法,却能让知识图谱更加全面、准确、完整。

在知识图谱的探索上还是会和百度有所不同。知识核心来源于百度等网站,百度的UGC知识产品战略始于2005年左右,使其拥有强大的自有知识图谱,这些知识图谱来源于百度等产品的数亿条数据和关系,芝芝和贴吧。目前,百度的知识图谱已覆盖十几个领域用户关系图谱,几十个类别,拥有数亿个实体。通过构建宏大的知识网络,整合碎片化的信息,并以图文方式展示,人们只需轻点鼠标,即可快速获取知识,找到自己想要的知识。

值得一提的是,今年以来,百度搜索结果页频频推出新品。除了人物关系图,当出现汤唯订婚等焦点事件时,搜索结果右侧会出现相关人物关系。智能推荐;世界杯等重大赛事举办时,实时更新的时间线图也会清晰显示在右侧;而搜索“故宫”、“颐和园”等景点的用户,可以直接得到景点地图和人群分布图、周边交通信息、景点推荐等信息……

众所周知,知识图谱对“语义识别”技术的门槛非常高,对社交开源内容的支持需求强烈,是一种依赖大量用户行为数据库的产品形态。百度搜索本身就是大数据的来源。同时,百度还有百度百科、百度知乎、百度文库等产品的各种数据支持。已完成近百亿实体知识图谱的构建并实现平台化,使百度知识图谱快速切换,支持多产品开发。

知识图谱可以让用户获得全新的搜索体验用户关系图谱,让用户更快速地接近答案和服务。我思考的一个问题是:在阿拉丁之后,知识图谱是不是更强大的满足用户需求的方式?

作者微博@互联网阿超微信