2.4 构建商品知识体系
知识建模的最终目的是要形成整个领域的知识体系。大千世界,各个领域会沉淀出自身对应的知识,例如生物学知识覆盖植物、动物和微生物,社会科学知识涉及社会现象和人类行为,电商领域知识则需要覆盖消费品的各种品类等。在知识图谱中,不仅包含了具体的知识数据,还包括了对这些知识数据描述定义和管理的系统,这个系统被称为知识体系(Schema)或者本体(Ontology)。上文中介绍的知识建模,正是在构建知识体系,也可以称为构建知识体系的表达方式。通过构建知识体系,既方便体系化地表达行业知识,也易于知识管理。完整的知识图谱的知识体系(Schema)不仅仅包含对领域知识概念的分类,而且完整地包含了概念分类、概念表达和概念关系等定义模块,是一套存储和管理知识图谱中的概念知识的结构。在本节中,将枚举经典的知识体系,介绍开源知识库案例,并重点介绍与电商领域相关的知识图谱知识体系。
2.4.1 通用域知识图谱
通用域知识库的建设由来已久,例如SUMO诞生于“知识工程”(Knowledge engineering)倡导先驱费根鲍姆(Edward Albert Feigenbaum)创办的Teknowledge公司。是一套标准的高层次的知识本体,它不包含特殊领域概念。其目标是让各类特殊领域以SUMO思想和概念结构为基础,衍生出各领域的知识体系。这套体系促进了信息和数据的互通,并可以支持信息检索、自然语言处理和知识推理等多种任务。
提到知识图谱(Knowledge Graph)就不得不提Google公司。Knowledge Graph概念由Google公司在2012年推向大众视野,最初主要是被Google公司用来优化搜索引擎,后来知识图谱才慢慢地被用来泛指各种大规模的知识库。这段历史与Freebase密不可分。Freebase是由硅谷的MetaWeb公司在2005年创建的一个大规模的连接数据库,基于社区成员协作的方式构建,其知识体系包含了例如Wikipedia、MusicBrainz、Fashion Model Directory、NNDB及社区用户数据等多种数据源抽取的概念及本体定义。
2012年,维基百科的母公司Wikimedia启动了基于Creative Commons Attribution协议的项目——WikiData,打造一套基于知识图谱三元组为存储形式的,开源的、支持多种语言、任何人和设备都可参与修改的大规模链接数据库。WikiData借鉴Wikipedia的众包合作方式,支持由众包和专家参与构建。至今,WikiData已经成功沉淀了大量的知识体系条目,并还在不断壮大。
DBpedia是世界上最大的多领域知识本体,Linked Data的一部分,通过从各种维基媒体项目创建的信息中提取结构化内容,借助互联网挖掘,以机器可读的形式存储知识,并提供信息收集、组织、共享和搜索等。在2014年,DBpedia就发布了包含30亿条三元组的版本,实体包含人、地点、唱片、电影、游戏、组织、物种和疾病等。DBpedia知识库的用例非常广泛,包括Web搜索、维基百科搜索、企业知识管理,甚至包含媒体,例如BBC、Reuters、NEW YORK TIMES等。
YAGO是一套从2007开始,由巴黎电讯科技大学联合德国马普研究所构建的一种基于链接数据库的开放语义知识库。它不仅是IBM Watson的后端知识库之一,还支持了Freebase、DBpedia、UMBEL Ontology、SUMO Ontology等项目,为它们提供知识库支持。YAGO作为基于Creative Commons Attribution协议的联合项目,集成大量数据源,包含WordNet、Wikipedia、GeoNames等,其三元组知识总量已超过亿级别。
Concept Graph是由微软亚洲研究院发布推出的Microsoft Concept Graph(微软概念图),它用来帮助机器理解人类交流,并且支持语义计算。其背景是为了处理人类与机器在语言理解上存在差别的问题,由于人类意识中包含了大量常识性的概念。Microsoft Concept Graph通过维护这部分常识性概念来支持上层应用,并将这些概念存储在Probase知识数据库中。除了通用型概念,微软概念图还维护了大量通用数据库比较少见的领域知识,例如“抗帕金森治疗”“基础的水彩技巧”“名人婚纱设计师”等。除了概念,Microsoft Concept Graph包含了大量实体空间(每条知识概念都包含一系列的实体)。整个Microsoft Concept Graph知识体系有着广泛的应用,例如自动问答系统、在线广告系统、推荐引擎、搜索引擎、聊天机器人及人工智能系统等,这些自然语言处理应用都可以借鉴。
由中国中文信息学会语言与知识计算专委会发起的OpenKG项目,持续更新、收集、整理、汇聚国内外主要的开放知识库,直接提供开放的API或Dump服务。目前在百科类,OpenKG已经聚集齐了国内最主要的百科知识图谱。在这些百科的知识库的基础之上,持续拓展到其他垂直领域,例如金融、医疗、电商和气象等。其他的开放知识图谱还有很多,例如由罗马大学计算机科学系的计算语言学实验室创建的BabelNet,它是多语言百科全书式的字典和语义网络。此外还有由中国复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科CN-DBPeidia等。
2.4.2 阿里商品域知识体系
在电商领域,需要管理海量的商品信息,并支持商品的搜索、商品域问答、商品知识推理等相关任务。因此,构建商品域的整个知识体系非常重要。阿里巴巴集团作为服务全球的电商平台,支持数十亿级商品的流通,构建了阿里商品知识图谱(Alibaba Product Knowledge Graph)。截至目前,阿里商品知识图谱沉淀了近52.2亿个商品相关实体,三元组数量级达到2000亿,其中Schema或本体层的实体类型数达到62种,关系类型数达到35种,规则数达到370.1万。整个商品知识图谱构成了一个规模巨大的商品域知识体系。
值得一提的是,在商品领域,知识图谱的知识体系也不是单一的。在大而全的基础商品知识图谱之外,各个垂直领域也可以沉淀更聚焦的领域知识图谱。例如盒马鲜生聚焦于生鲜领域,其打造的盒马垂直图谱在生鲜品类的Schema定义上相比于通用领域的商品知识图谱可以更加细化,如图2-8所示。
这里展示了部分阿里盒马构建的生鲜知识图谱的知识体系(Schema)作为案例。通过定义本体,基于本体支持各类实体类型、实体表达、实体关系的存储管理,组织知识图谱的三元组信息。并且在盒马垂直图谱中,重点突出了菜谱、食材、营养成分等具有领域特色的实体。
图2-8 盒马知识图谱的知识体系
1.商品类目体系
在阿里商品知识图谱Schema体系中,还有一个重要的模块——类目体系,这是阿里管理商品的重要基础,也是阿里商品知识图谱的重要组成。类目体系,顾名思义,是商品分类系统,也就是整个商品本体体系(Product Ontology)。如同前文中提到的图书分类,电商平台为了管理好各种商品,会持续维护和升级商品分类体系,使之覆盖所有需要的品类,并且保持各个品类之间粒度的协调和品类差异的区分。
如图2-9所示,阿里的商品分类体系设计了多种层级(cate_path),呈现出从一级类目、二级类目、三级类目,一直到最细粒度的叶子类目的树状形式,方便归类和管理。一般类目层级会从1层到6层不等,大部分在3层左右最为常见。例如:女装→裤子→休闲裤。多层级树状类目体系作为商品知识库中本体的重要组成部分,管理着大量的商品实体。
不同商业组织的商品类目体系也可能有所不同,例如国际电商平台亚马逊(Amazon)、沃尔玛(WalMart)、阿里巴巴(Alibaba)都各自有自己定义的一套或多套类目系统,分别灵活支持各自的业务需求。即使是在阿里经济体内部,由于业务形态的多样化,也会存在多套差异化的知识体系,例如:方便前台销售导购和消费者交互的前台类目系统、便捷后端商品管理的后台类目系统、适合于新零售线下使用的饿了么类目和盒马类目、适用于国际化业务的AliExpress多语言类目、为阿里健康服务的健康类目、支持本地生活的飞猪旅行商品类目,以及很多其他类型。这些品类都有各自的定义方式和特点,并在持续建设和升级中满足商业市场的诉求。
图2-9 阿里商品类目体系(部分)
此外,阿里商品知识图谱还采用了尼斯分类体系。尼斯分类作为商标类目分类表,是根据《商标注册用商品和服务国际分类尼斯协定》制定的。尼斯协定把商品分为34大类,其中服务项目分为11大类,如图2-10所示。这种商品与服务分类法为商标检索、商标管理等提供了很多便利。
《商标注册用商品与服务国际分类尼斯协定》是于1957年6月15日在法国尼斯签订的协议,并在1961年4月8日生效。我国使用国际商标注册用商品分类法是从1988年11月开始的。我国开始使用国际服务分类法,是从1993年7月1日实施《中华人民共和国商标法修正案(草案)》后。1994年8月9日我国正式加入尼斯协定。
尼斯分类表包含两部分,一部分是按照字母顺序排列的商品和服务分类表,另一部分是按照类别排列的商品和服务分类表。
图2-10 尼斯分类体系UNSPSC(部分)
如图2-11所示,尼斯分类体系将商品和服务按照1~45类的顺序排列。给每类赋予类别号和标题,每类的标题总结概述本类所包含商品的特征范围,最后列出本类包括的所有商品或服务项目,每项商品或服务均有一个顺序号,以便查找。此外,为了解决本类主要包括哪些商品,本类与相关类别的商品如何区别,如何划分边缘商品的类别这些问题,在各个分类上有专门的注释和说明,这个注释对划分一些易混淆商品的类别有很大帮助。
商品和服务分类表还有另一部分,即按字母顺序排列的分类。在全球,世界知识产权组织出版了按英文、法文顺序排列的商品和服务分类表。我国商标主管机关也编排印制了按汉语拼音顺序排列的商品和服务分类表。使用这个表查阅一般商品的类别就像查字典一样方便。例如,对于录像机生产商或电视机生产企业,只要按照汉语拼音顺序,很容易就能查到这两种商品都属于第16类,从而便捷地在这两种商品上申请商标注册。
图2-11 尼斯分类体系UNSPSC(部分)
2.商品属性体系
此外,阿里商品知识体系中除了多层级类目,还维护着各品类下的属性体系,用以表达各个类目对应商品实体的详细属性信息,它包含了属性项(Property)和属性值(Value)两个组成模块,并支持品类下多属性联合表达。
如图2-12所示,由属性体系参与支持商品知识表示,并且通过对各种品类进行特殊定义和约束,实现差异化表达的诉求。例如,在电商领域的服装品类中,实体信息关注材质成分、款式和尺寸等知识信息。而对于食品生鲜品类,重点关注的是营养成分、是否有机、产地和保质时长等属性组。因此,阿里巴巴设计出多层级类目结合属性项、属性值组的结构化的商品知识表达形式。
图2-12 阿里巴巴商品属性知识体系(部分)
如图2-13所示,手机品类下某商品实体有多个属性项信息,例如品牌信息(Property_name:品牌,Value_name:Apple/苹果)、摄像头类型及存储容量等,该品类下的商品实体的品牌等具体参数便可通过这样结构化的方式存储和表达。这里值得注意的是,对于属性项存储容量,通过支持多值表达,呈现64GB、256GB和512GB,适应多值应用场景。
图2-13 商品属性样例
由此,差异化的知识表达通过这种结构和管理方式得以实现。此外,在实践中为了让知识体系下的数据生产和表达更标准、更规范,需要对细分品类的属性值系统做限制和管控。例如,阿里巴巴集团构建品牌知识库,规范品牌信息的表达,避免出现“苹果”“苹果牌”“apple”“Apple Iphone”等多种形式的泛化表达,用同一套标准体系“Apple/苹果”规范知识的呈现。这样做的好处有多种,首先是提升消费体验,让消费者看到的信息更加规范。其次是方便系统化管理,在知识图谱体系中,对于同样的品牌属性值,可以用同一套知识存储。更重要的是,通过标准化的表达,可以方便集团对商品进行管控,治理虚假冒用的行为,对于商品信息做严格校验,保护消费者权益。例如,如果有不法商家售卖的商品并非苹果产品,却想要盗用“Apple/苹果”品牌作为自己的商品提升销量,当该商家为商品选择品牌的时候,就会有品牌相关的资质审核和管控系统校验和干预,没有相应授权则无法通过系统。基于这种形式,通过阿里的类目属性知识体系,能够实现对全量商品实体的知识表达和管理。并借助技术和专家的持续建设,使得这个体系保持更新迭代,适应日新月异的使用诉求。
3.商品编码体系
GS1(Globe Standard 1)作为国家和国际管理货品编码(条码)的组织,拥有全球跨行业的产品、运输单元、资产、位置和服务的标识标准体系和信息交换标准体系,可以让产品在全世界都能够被扫描和识读。GS1作为组织机构,同样需要一套标准化的知识体系(UNSPSC)管理所有的相关实体的知识。
如图2-14所示,GS1不仅管理货品,还覆盖运输单元及资产,其涉及的实体品类丰富。要想构建和维护一套实用的知识体系管理所有的实体信息,离不开类目系统。这里通过Segment、Family、Class、Commodity细化各个细分品类,并输出多语言体系,支持全球化的应用场景。
图2-14 GS1分类体系UNSPSC(部分)
4.门店域知识体系
在消费者的购物链路中,涉及大量的线上线下商品的联动。在线上,商品以及人的数字化已经相对比较成熟,但是对于线下的消费场景,如何做好线下场的数字化和智能化,是一个比较大的挑战。目前,线下场主要包括两块,一块是商户或门店,在导航场景下,业界又称POI(point of interest,兴趣点),另外一块是在履约过程中经常使用的收货地址等。对于美团、口碑、饿了么等,线下场的数字化和智能化与线下的服务体验息息相关。比如,如果线下门店的地址错误,消费者就无法准确找到对应的门店位置。如果会员的收货地址不对,物流配送就无法准确配送,导致配送资源的浪费。线下场牵扯到大量的地理知识,包括地理编码的标准、行政区划的标准以及类目属性体系。这几个属性是门店的核心字段,通常在知识融合和知识获取阶段都会进行槽填充。本书会分三个小节,对这些基础知识进行介绍。
(1)地理编码格式(火星坐标系、百度坐标系、WGS-84坐标系)
要实现门店和地址的数字化,需要对位置进行精准的表达。首先介绍如何用地理编码表示地理坐标。由于地球是一个球体,地理坐标系也称为球面坐标系,目的是将本不是椭球体的地球进行椭球体化,从而形成球面坐标体系。在国际标准中,地理坐标系就是WGS-84坐标系。在现实场景中,各个国家为了反映本国所在区域地球的真实形状,都会采用不同的数学模型对地球进行椭球体化,比如就存在北京54坐标系、西安80坐标系等不同的坐标系。在实际的应用中,主要采用的是WGS-84标准,这一标准也被Google地图等地图提供商广泛使用。
WGS-84坐标系又名GPS坐标,一般用国际标准的GPS记录仪记录下来的坐标,都是GPS的坐标。GPS坐标以度、分、秒的形式表示经纬度,比如49°32'21.21,分到度的转换单位是60,分到秒的转换单位也是60,所以32分就是32/60°,21.21秒就是21.21/3600°,结果就是39+32/60+21.21/3600°。
另外,这里做一点补充,出于对数据安全等因素的考虑,国家规定任何一个地图产品都不允许直接使用GPS坐标。所以,测绘局、高德地图和百度地图等都使用了一定的加密方式。其中,我国国家测绘局创立了一套GCJ-02坐标系,也叫作“火星坐标系”,这套坐标系使用在高德地图和Google国内地图的服务之中。可以说,GCJ-02是国内最广泛使用的坐标系。百度坐标系是在GCJ-02坐标系的基础上再次加密偏移后形成的坐标系,只适用于百度地图。一般来说,地图提供方均提供了不同坐标系之间的转换方法,在构建门店知识图谱等过程中,会大量使用到坐标系的转换。
(2)五级行政区划
GPS坐标提供了一种计算机可识别的地理表示方式,在实际生活中,为了方便行政管理和日常生活使用,所有的国家都会按照区域大小对区域进行一些行政职能上的划分,称为行政区划。按照国家的分级,我国的地址产品主要包括四级行政区划,五级门址库。按照从高往低的顺序,可以分为:省级行政区(一级)、地级行政区(二级)、县级行政区(三级)、乡级行政区(四级)。五级门址是在四级行政区划上往下延展了一级,建立一个结构化、标准化的地址数据,后面会加上:村、道路名&编号、建筑物&编号,同时考虑到道路的层级,增加了子路&编号。
目前,我们的地址库中大概收录了45902条行政区划数据,以浙江省举例,总共有1一个省级区划,11个地级市,分别是杭州、宁波、温州、嘉兴、湖州、绍兴、金华、衢州、舟山、台州、丽水,然后是92个区,1310个乡镇街道。并且,值得我们注意的是,行政区划是会经常发生变化的,举例来说,浙江在2017年就把临安从县级市修改为区。
(3)门店分类标准
在知识图谱中,分类标准是一个很重要的图谱实体字段,能极大地方便知识的管理和知识的生产。如何构建门店的分类标准,具有非常重要的意义。目前,在门店域,类目属性体系比较偏专家系统,基于自动化的类目构建还没有一个比较好的突破。目前,在实际应用中,我们把门店类目分成一个三级的树形结构,其中包括8个一级类目,140个二级类目,267个三级类目。其中,一级类目主要包括景点、购物、美食、玩乐、旅行服务、交通等。对于二级酒店,又可以分为花园洋房、禅意酒店、亲子酒店、设计主题酒店、精品民宿、文艺酒店、商务型酒店、经济连锁、酒店式公寓、客栈、精品酒店、蜜月酒店、青年旅舍、家庭旅馆、商务会展酒店、度假酒店、顶级奢华酒店、情侣酒店、海景酒店、温泉酒店、特色四合院、园林庭院、农家乐、高尔夫酒店、招待所、别墅和滑雪酒店。