携程的旅游知识图谱构建和应用-程序员宅基地

640?wx_fmt=gif 640?wx_fmt=jpegwebp

导读

本文首先介绍了什么是旅游知识图谱,然后就旅游知识图谱的架构,构建,应用和未来几个方面展开讨论。

xmwebp

来源:  DataFunTalk丨作者:鞠剑勋 金媛

数据猿官网 | www.datayuan.cn

640?wx_fmt=jpegwebp

今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云·云+社区

xmwebp

本文是DataFun金媛,从携程旅游度假AI NLP负责人鞠剑勋 ,在AI先行者大会上分享的《旅游知识图谱的构建和应用》整理而成。


旅游知识图谱


首先简单介绍什么是知识图谱。知识图谱是由Google公司在2012年提出的新概念。用信息可视化技术将知识以图的形式表示,图由节点和边构成,节点对应知识图谱的实体,自然界中的每个对象都可以称之为一个实体,例如人,公司,酒店,甚至酒店内的某个房间都可以称为实体;边对应知识图谱的关系,及实体之间的关系,比如**酒店位于北京市,“位于”就是**酒店和北京市之间的关系。

640?wx_fmt=jpegwebp

小问题:我们为什么要构建旅游知识图谱(旅游知识图谱的作用)?


传统的推荐系统会根据用户的历史行为,为用户打上隐形标签,并为用户推荐相关的产品。假设用户订购了普吉岛的旅游产品,比如自由行,用户的原因可能是喜欢旅游,喜欢海岛,于是推荐系统为该用户打上了“喜欢海岛”的标签,为该用户推荐了很多海岛的相关产品;有些用户可能喜欢普吉岛的某些服务,例如露天泳池,某家酒店等,推荐系统则引入酒店等一些特征加入推荐模型中;某些用户因为去普吉岛只需要落地签,不需要额外的手续,于是推荐系统加入了签证相关的特征;某些用户因为去普吉岛的机票打折,喜欢泰国的一些旅游景点,喜欢海鲜等,如果将这些特征全加入推荐系统,会发现推荐系统变得很困难。


酒店数据,机票数据,签证数据,景点数据等,每种数据都需要单独的数据库或者数据表去维护,将这些数据联合分析可能要做大量的BI工作,这些繁杂的分析都可以用知识图谱取代,这就是旅游业需要知识图谱的原因。

640?wx_fmt=jpegwebp

通用知识图谱可以看作是一套模板,利用领域知识向模板中填充内容,形成特定的领域知识图谱,例如旅游知识图谱,金融知识图谱,医药知识图谱,动物知识图谱等。通用知识图谱是领域知识图谱的基础,而领域知识图谱是通用知识图谱的扩充,二者相辅相成。

640?wx_fmt=jpegwebp

上图是旅游知识图谱的一个例子。以旅游产品为中心,扩散出与其相关的其他产品,比如酒店,机票,目的地,餐厅,签证,景点等。首先定义知识图谱的实体,酒店,景点,目的地,机票,餐厅等,以及它们都有哪些属性特征,例如酒店的星级,坐标,价格等,然后定义实体之间的关联,例如**酒店距离**景点多少米就是酒店和景点之间的关联,然后把具体的产品当作实体映射到本体上,以一个图结构去存储数据,建立知识库,形成知识图谱的简单架构。


旅游知识图谱的架构


一套完整的旅游知识图谱架构:上层应用包括QA应用,推荐搜索,知识挖掘等方面的应用。QA对话主要应用在以下几个方面:智能客服,智能导购,客服助手和对话机器人等,携程,淘宝等应用智能客服,智能家居则应用了智能导购系统,百度的智能音箱是类似对话机器人的一个产品。当进行QA问答时,智能回答者要通过知识图谱寻找答案,完成对话。图谱的构建包括schema本体管理,域管理等等,需要提前定义实体的类别属性等,还有数据自动化等构建,比如说知识的来源,大段的文章中抽取实体,关系等,同时对多个知识图谱进行融合,做一些补全,推理等操作,全局优化就是做一些一致性较检,智能更新等;底层是数据层,可以将现有数据库导入到知识图谱中,也可以从外部通用知识图谱收集知识,也可以从文章中,等非结构化数据中提取和采集知识来完善知识图谱。知识存储分为两个部分,分别是rdf,类rdf,比如owl,还有一个是图结构的存储。此外还有一些机器学习,nlp的一些算法等共同构建了知识图谱的架构。

 

owl用来存储一些三元组,本体和本体之间的关系,好处:清晰的schema定义,丰富的类与类之间的关系,实现一些简单的推理,比如属性和属性之间是否存在相反关系,位于关系,比如a位于b,b位于c,那么a位于c这样的传递关系,同时可以给每一个实体定义一个类型,给每一个类型提前定义一些属性,根据schema的type和属性往里面插入数据,本体schema可以认为是数据库表的列名,它已经限定数据库可以存哪些不可以存哪些东西。

640?wx_fmt=jpegwebp


除了owl,还有图数据库。图结构的好处就是毫秒级别的查询性能,容纳百亿级别的数据规模,可以在线实时更新,图数据库有很多种。


640?wx_fmt=jpegwebp


知识图谱的构建方法


首先,定义schema,比如实体的类型,数据类型,属性类型,类别等,然后做一些知识采集的操作,从文本中抽取关系,从外部知识库补充一些已有的三元组,接着是数据库迁移,从sql数据库中的数据迁移到知识库中,数据库备份,数据结构的转换,实时更新就是检查数据的一致性,对重复的内容做知识融合,比如china和中国,尽量保证实体的唯一性。

640?wx_fmt=jpegwebp

在抽取实体时一般领域会抽取出人名,组织结构名,地名,数学表达式等;在旅游领域会抽取出旅游相关的实体,例如景点名,酒店名,目的地名,机场名等。比如这句话:"在兴义市区期间,入住的是富康国际酒店。从兴义机场到市中心的富康国际酒店打车不过十来分钟。富丽堂皇的大唐,穿着民族服饰的服务员,雅致的房间都让我对兴义有着不错的印象。刘氏庄园位于兴义城南",在旅游领域抽取的实体有:目的地名兴义,酒店名富康国际酒店,机场名兴义机场,景点名刘氏庄园。命名实体识别一开始是基于规则或字典的方法抽取实体,接着发展到利用模型抽取实体,例如HMM,HEMM,CRF模型都可以用来做序列标注,从而识别实体。现在的做法一般是将卷积神经网络CNN或循环神经网络RNN与CRF结合的模型。

640?wx_fmt=jpegwebp


知识图谱的应用


QA问答系统首先进行NLU语音识别,语音识别就是把语音信号转化为文本或者指令的技术并确定语音的意图,DM会话管理是人机对话的核心,它主要用来维护和更新对话状态,当前的会话状态依赖于之前的系统状态和之前的系统响应以及当前时刻的用户输入。QA系统的答案基本从知识图谱中获取,需要从句子中抽取出来实体,将句子的意图等映射到知识图谱中进行查询,提供答案。

640?wx_fmt=jpegwebp

知识图谱一般不用于基于特征的推荐系统,一般用于基于路径的推荐,分为两种meta-path和meta-graph,用户喜欢普吉岛的酒店,喜欢spa服务和泳池,可以建立这样的一条路径作为推荐系统的特征,参与计算。缺点:需要提前设定这样的路径,不支持自动搜索路径。知识图谱特征学习,将特征转化为向量的形式,辅助推荐。应用于embedding,协同过滤中只考虑user特征和item特征,可以利用知识图谱作一些特征,embedding有很多方法,深度学习。


知识图谱还可以应用到搜索方面,传统搜索都是全文索引之类的搜索,没办法解析一些包含语义的句子,但是知识图谱可以解析出实体,筛选出一些答案,是基于语义理解方面的搜索。


知识图谱的未来


将知识图谱的语义信息,图像输入到深度学习模型中,映射到知识图谱的三元组的实体,关系或者图上,将离散化的知识表示为连续的向量,从而使得知识图谱的先验知识能够称为深度学习对输入,参与模型的计算,加强模型,比如问答,翻译。离散知识转化为向量;同时,利用知识作为约束目标的约束项,从而指导深度学习模型的学习过程,通常是将知识图谱的知识表示为优化目标的后验证则项。未来会在知识图谱中做多领域的融合,自动推理,自动抽取,事件图谱,比如某人最近发生了什么事情,这是变化比较频繁的图谱,主要应用在开放域对话系统,旅游线路推荐系统,旅游生态规划和热点事件追踪等。


作者介绍:

640?wx_fmt=jpegwebp

鞠剑勋,携程旅游度假AI自然语言处理负责人。主导携程旅游知识图谱的整体构建,有五年的自然语言处理和知识图谱相关经验,专注于自然语言处理和知识图谱方面的应用和算法研发。


数据猿读者亲启:


名企&大佬专访精选

向下滑动启阅

以下文字均可点击阅读原文


跨国外企:

谷歌大中华及韩国区数据洞察与解决方案总经理郭志明IBM中国区开发中心总经理吉燕勇微软中国CTO官韦青前微软中国CTO黎江VMware中国区研发中心总经理任道远


中国名企:

联想集团副总裁田日辉首汽租车COO 魏东

阿里巴巴数据经济研究中心秘书长潘永花

搜狗大数据研究院院长李刚易观CTO郭炜

前上海证券交易所副总裁兼CTO白硕携程商旅亚太区CMO 邱斐艾瑞集团CTO郝欣诚泰康集团大数据部总经理周雄志上海链家研究院院长陈泽帅蓝色光标首席数据科学家王炼


知名学者:

北大新媒体研究院副院长刘德寰中科院基因研究所方向东

 

创业明星:

地平线机器人创始人兼CEO余凯天工科仪董事长王世金ZRobot CEO乔杨天眼查创始人兼CEO柳超第四范式联合创始人兼首席架构师胡时伟天云大数据CEO雷涛Kyligence联合创始人兼CEO韩卿数之联创始人兼CEO周涛明略数据董事长吴明辉91征信创始人兼CEO 薛本川智铀科技创始人、CEO及首席科学家夏粉丨易宝支付联合创始人兼总裁余晨海云数据创始人兼CEO冯一村星环科技COO佘晖碳云智能联合创始人兼首席科学家李英睿

 

知名投资人:

前IDG创始合伙人、火山石资本创始人章苏阳

华创资本合伙人熊伟铭六禾创投总裁王烨

信天创投合伙人蒋宇捷青域基金执行总裁牟颖

蓝驰创投合伙人朱天宇


——数据猿专访部


(可上下滑动启阅)






xmwebp 640?wx_fmt=gif


▲向上滑动


采访/报道/投稿

640?wx_fmt=jpegwebp

[email protected]


商务合作

640?wx_fmt=jpegwebp

18600591561(微信)



长按右方二维码

关注我们ˉ►


640?wx_fmt=jpegwebp
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/YMPzUELX3AIAp7Q/article/details/85498960

智能推荐

轻松搭建知识图谱:Python实现案例_知识图谱 python 工程实例-程序员宅基地

文章浏览阅读1.6k次。作者:禅与计算机程序设计艺术 随着互联网的飞速发展、信息爆炸的时代到来、数据量的膨胀等,人们对数据的获取和处理也越来越迫切。为了能够更好地分析和挖掘大量的数据,提升个人综合能力,出现了基于图形的知识图谱(Knowledge Graph)。知识图谱(KG)将复杂且丰富的信息组织成一种网络结构,帮助人们快速理解、获取并利用其中的知识。图形数据_知识图谱 python 工程实例

微服务 tars php,腾讯tars微服务安装笔记-程序员宅基地

文章浏览阅读118次。tarsphp 文档地址https://www.bookstack.cn/read/TarsPHP/ 谢谢大佬的整理安装需要组件例如,在Centos下,执行:yum install glibc-develyum install gccyum install gcc-c++yum install lrzszyum install -y git下载tarsphp 架构包下载TarsFramework源..._windows tarsphp安装

浪潮信息HANA一体机创SAP BWH最佳成绩,算力助商业智能更快更准-程序员宅基地

文章浏览阅读948次,点赞24次,收藏26次。近日,SAP官方发布最新BWH Benchmark基准测试结果,浪潮信息NF8480G7四路HANA一体机以每小时执行17044次查询的成绩,刷新该测试最高纪录,为全球金融、高端制造、零售、能源等行业用户的商业智能分析,提供高效、领先的算力平台,从容应对快速多变的商业环境。

ESP32 开发笔记(三)源码示例 8_DHT11_RMT 使用RMT实现读取DHT11温湿度传感器_基于vscode的esp32开发,读取dht11传感器数据到led显示屏上-程序员宅基地

文章浏览阅读1.1w次,点赞5次,收藏22次。开发板购买链接https://item.taobao.com/item.htm?spm=a2oq0.12575281.0.0.50111deb2Ij1As&ft=t&id=626366733674开发板简介开发环境搭建 windows源码示例: 0_Hello Bug (ESP_LOGX与printf) 工程模板/打印调试输出 1_LED LED亮灭控制 ..._基于vscode的esp32开发,读取dht11传感器数据到led显示屏上

icpc网络赛第二场 J-A Game about Increasing Sequences-程序员宅基地

文章浏览阅读623次。简单题,但是不会_a game about increasing sequences

9.学习74HC595以及8x8点阵流水灯_stc8g 驱动74hc595-程序员宅基地

文章浏览阅读2.3k次。OE非:输出使能,本实验接地使用。记得接地!单片机手动接地!J24模块!RCLK:储存寄存器时钟输入SRCLR非:复位,本单片机默认接VCC,不用管。SRCLK:移位寄存器时钟输入SER:串行输入QA-QH:8位并行输出QH非:串行输出 本实验595的工作:SRCLK每接到一个上升沿,就把SER的值储存起来;当存够8位后,给RCLK一个上升沿,储存起来的数就被放到QA-QH,第一个存进来的数放到QH(高位的数放高位)。(自己的理解,不知对错)列由P0控..._stc8g 驱动74hc595

随便推点

mysql5.6主从库安装与配置_mysql的主从库部署-程序员宅基地

文章浏览阅读4.3k次。mysql5.6主从库安装与配置关闭防火墙//临时关闭systemctl stop firewalld//禁止开机启动systemctl disable firewalldmysql5.6安装保证可以联通外网。安装wgetyum install wget检查系统是否安装其他版本的mysql数据yum list installed | grep mysqlyum ..._mysql的主从库部署

Lua学习-运算符_lua &&-程序员宅基地

文章浏览阅读655次。运算符分为:1.算术运算符2.条件运算符3.逻辑运算符4.位运算符5.三元运算符在Lua中不支持位运算符和三位运算符,但是可以间接实现三元运算符1.算术运算符(+、-、*、/、%、^(幂运算符))注意:Lua中没有++,–,+=,-=,*=,/=,%=2.条件运算符(and ,or,not) 注意:Lua中的条件运算符就这三个,没有&&,||,!=3.逻辑运算符(> ,<, =, >=, <=, ==,~=) 注意:Lua中的不等于是"~="pri_lua &&

基于图像的三维模型重建——相机模型与对极几何-程序员宅基地

文章浏览阅读1.7k次。点击上方“3D视觉工坊”,选择“星标”干货第一时间送达作者:梦寐mayshinehttps://zhuanlan.zhihu.com/p/129681081本文转载自知乎,作者已授权,未..._图像 3d模型 csdn

2021年美赛解题思路汇总Final!!!_2021年美赛b题思路-程序员宅基地

文章浏览阅读1.2w次,点赞9次,收藏54次。首先:A题是连续型问题,是“数值分析”领域的内容,需要熟练掌握偏微分方程以及精通将连续性方程离散化求解的编程能力。这时,队伍里最好是有一个纯数学基础好的(偏微分方程、复变函数、信号与系统等等),还需要有两个擅长连续型问题编程的同学,两个人都比较擅长编程这一点很重要,既可以防止一个人编程的话,思路可能有所偏颇,又可以使得两个人在相互碰撞中产生新的灵感。B题的话可能是离散型问题,对于B题在编程上,一定需要比较熟悉计算机的“算法与数据结构”这类离散型编程问题的同学。C题属于大数据类问题,几乎都是关于数_2021年美赛b题思路

IP地址网站划分详解_网址划分-程序员宅基地

文章浏览阅读780次。LAN IP地址网站划分详解IP和子网掩码我们都知道,IP是由四段数字组成,在此,我们先来了解一下3类常用的IPA类IP段  0.0.0.0 到127.255.255.255B类IP段  128.0.0.0到191.255.255.255C类IP段  192.0.0.0到223.255.255.255  XP默认分配的子网掩码每段只有255或0  A类的默认子网_网址划分

【重识 HTML + CSS】知识点目录-程序员宅基地

文章浏览阅读637次,点赞29次,收藏14次。javascript是前端必要掌握的真正算得上是编程语言的语言,学会灵活运用javascript,将对以后学习工作有非常大的帮助。掌握它最重要的首先是学习好基础知识,而后通过不断的实战来提升我们的编程技巧和逻辑思维。这一块学习是持续的,直到我们真正掌握它并且能够灵活运用它。如果最开始学习一两遍之后,发现暂时没有提升的空间,我们可以暂时放一放。继续下面的学习,javascript贯穿我们前端工作中,在之后的学习实现里也会遇到和锻炼到。真正学习起来并不难理解,关键是灵活运用。