技术动态 | ChatGPT 下的知识图谱审视:一次关于必然影响、未来方向的讨论实录与总结...-程序员宅基地

技术标签: 人工智能  自然语言处理  知识图谱  chatgpt  

转载公众号 | 老刘说NLP


近日,两位知识图谱领域专家刘焕勇老师和王昊奋老师一起就 ChatGPT 会对知识图谱造成什么影响、两者之间的关系以及未来发展这个话题进行了讨论,其中的一些观点具有一定的参考和指引性,整理出来与大家一同思考。

一、关于chatgpt带来的kg研究与落地影响的讨论

下面是讨论的全程实录(对话中的观点仅供参考):

刘:有个问题想咨询下您的观点:chatgpt会对知识图谱造成什么影响呢?两者之间的关系是怎样的,未来发展是怎样的?想听听您的看法。

王:我觉得ChatGPT或LLM的出现其实本质来说,对于是否我们需要完全结构化(符号)表达的传统图谱会有反思。甚至很多传统的KG任务,比如知识抽取,知识融合,知识推理与计算,以及上层的问答、搜索、推荐其实都会受到影响,就和早年大家在针对PTM(还不算LLM)的时候,大家就说PTM就是Knowledge base,包含了大量如Knowledge probing等任务来分析和理解。

刘:嗯嗯,是形式化知识和参数化的知识区别

王:所以可能整个KG的lifecycle的任务都需要考虑在有了LLM的情况下该如何做,这点对于如百科类为主的通用知识图谱的构建与应用产生了更大的影响,可能短时间就不要做了。对于垂直领域的KG,我觉得构建与应用的范式也需要发生变化。其实这次ChatGPT或LLM出现之后,在语言理解NLU方面,以及各种任务上的表现,都达到了一个前所未有的高度,而且是达到了能用(还没有到好用的程度)。

刘:两者如何去结合呢?

王:两者的结合还是有很多可以去做的。1. 结合其在推理(常识和领域推理),业务系统交互,超自动化,时效性内容的接入和更新等方面,有不少可以做的。2. 各种图谱任务的text generation映射,以及prompt engineering。3. retrieval augmented DL的实现,这里retrieval的库包含大的KG,这样对选择example,对于约束prompt,对于提升推理能力都有可以做。4. KG本身往更多适合符号来做的,包括数值计算,包括规则推理等方向去做深,因为这块对于LLM来说,其实是相对薄弱,或者说学习效率太低了;5. KG作为一个meta ontology来进行各种AI特别是Maas的编排和整合,形成更加完整的链条,这也是在1里面提到的hyper automation

刘:也可以比如用kg来约束cahtgpt推理

王:我最近在琢磨做LKM(Large Knowledge Model),他一定不能是纯的DL的,会是神经符号结合的。在AutoPrompt, 在各种LLM的probing以及模块化组合,以及在检索增强,推理辅助(目前decision making还有很多值得做,因为这些对于准确性,对于可解释性等要求更高),决策支持等功能,以及数据系统治理与接入等方面做更多工作

刘:我有种直觉,不知是否对:知识图谱离应用端链路太长,成本很高。Chatgpt为代表的llm,端到端,很直接。

王:你的直觉是完全对的,我觉得KG的问题就和早年的NLP一样。pipeline很齐全,但是要完整的完成一个可落地的项目太费劲。门槛太高,另外,ops很难做,也没有tensorflow或pytorch这样的工具。

刘:王老师,您说对kg的影响,在应用端会对哪些场景影响较大呢?

王:我觉得基本上搜索、问答、推荐都基本上要重新来一遍了。图可视分析还好,因为都是离散的。决策这块因为不是well defined的任务,所以可能还会持续一段时间,有人用LLM(转化为各种判别任务),有人继续用传统的KG那一套,这个的拐点应该在于大家对于领域(业务+规则+流程)的推理突破了那层纸之后就会形成范式的转移和变化。

刘:细分领域用kg,非文本数据和已经图化的数据用kg。

王:这个其实也未必了,看看text-davinci-002都整合了code,其实都可以变成LLM的input

王:KG构建的话,如果还需要定义schema,这个和LLM怎么结合呢?

刘:这是个好问题,用LLM挖schema?或者用LLM来建schema下的instance

王:LLM做schema induction以及做knowledge extraction已经有一些最新工作了,其实是如果schema还是按照传统的来定义建模,那么这里如何和LLM结合呢?是schema2prompt来做knowledge population么,还是怎么样?这里的prompt其实也包括machine readable或trainable的prompt,我觉得X2prompt是一块大活,然后X2Text或2Sequence也是一个大活。

王:这次LLM最令我吃惊的是,他的emergent ability,主要这些是trigger的,无论是通过in-context learning还是通过zero shot的prompt(包括CoT),因为传统我们都是以为是做knowledge injection的。

王:这点就导致我们外部的这点点小知识(相比LLM的规模来说),还有啥用呢?

刘:看过研究说是说不清的逻辑,到达一定参数量就出来了。

王:其实还是因为见过,以及long context的建模和组合泛化,这个对于transformer的induction head的同层和跨层协同机制的调研,大家得到了一点点结论。目前我们觉得因为chatGPT还是在语言层面,他没有和物理世界交互,所以无论是机器人还是什么最近大家提倡的具身智能。

刘:到物理交互,输入的数据形态就要更多了。

王:这里有一块KG可以做的事情就是坐symbolic grounding。设想一下,如果我们对于喂给LLM的各种数据,做了entity linking等任务,这样等于是一个KG corpus + text corpus的二部图的组合,中间的link就是从KG到text的某个sentence或segment,这样能学到更好的模型么?或者有一个KG-input的LLM,有一个text-input的LLM,有一个KG-text linking的LLM作为bridge,三个LLM的协同是否比我喂给一个LLM的效果如何呢?这点很重要,如果可以用多个module来近似一个,那么就使得我们可以训练多个相对小的模型(目前根据scaling law, 10B是产生涌现的下界),可能更多人可以根据需求做自己的模型。

王:另外一块,KG可以做的,其实是类似我们之前做领域KG的时候,可能会希望从通用或百科的KG种抽取一个domain specific subset,然后再结合业务数据进行针对性enrichment,那么这个是否可以将通用KG替换为LLM呢?原来的DAPT或TAPT等adapation pre-trained model是否可以重现呢?

王:纯属瞎想,我觉得这个不是一个人可以做完的,要有一群人一起做,KG和NLP都要做改变,原来前几年NLU里面做out of domain intent detection这种比较fancy的任务,现在根本不需要做了,summarization等也是很多人担心的。

刘:您觉得,kg这套跟chatgpt这套,各自的优势和弱势分别是什么呢?

王:KG我觉得优势还是在于方便debugging,人可理解,图结构表达能力强。chatGPT就是any data, any task, 无所不能,不够简单,现在是非科研人员通过prompt(而且是align人的想法的,不像text2image等,都是人伺候机器的)就可以做很多事情。打个比方,KG在专家系统时代是Web1.0(可能当时弄一个网站都费劲),现在的KG是大数据时代的知识工程,类比微博,Facebook时代的Web2.0(丰富程度,以及foundation KG)已经很多了,但是还是需要折腾;而结合ChatGPT或LLM的KG应该至少到了短视频时代的Web 2.0,门槛进一步降低,创意被极大激发

刘:Kg在23年会有那些可以预见的变化呢?然后,对于学生群体【科研口】,对于工业群体【落地口】应该做什么改变或者关注点呢?

王:科研口我觉得应该要调整,改变之前一个任务,一个模型的思路,思考一下如何站在巨人肩膀上做新的创新,尤其是对于LLM的评测,比较,发现其优点和不足,避免因为其优点产生的收益再去做一遍伪科研,这个其实和当时BERT包打天下之后大家要做的调整一下。对于工业界,对于大厂,应该有勇气和决心去做yet another chatGPT,至少里面有哪些坑,在工程和数据准备上需要做哪些准备有思考,类似早期互联网copy from US的情况;对于中厂(各种衣食无忧和在特定领域聚焦的独角兽),应该思考如何定制,垂直化LLM,并将其和各种业务系统进行结合,打造自己的领域中间件;对于小厂就是想想如何将自身业务嫁接在chatGPT上,进行相对其他竞争对手的技术优势,类似Jasper等。

刘:Kg方向的群体呢?

王:KG领域我觉得相对留给大家时间比较长的应该是和DB或KRR关联的部分,这块相对可以思考如何在图数据管理的同时,可以更好管理LLM,并进行有效协同,而KRR应该考虑更广义的推理,以及新的知识表示(从规模、灵活性,表达能力,工具支撑等角度),而NLP(知识抽取与构建)和IR(知识检索,问答等)相关的我觉得应该摈弃之前的研究范式,考虑全面拥抱LLM,并基于此的不足和挑战,产生的新机遇。

刘:搞图谱的厂商要继续么?

王:要的,因为LLM或ChatGPT都是技术,本质图谱的厂商的业务或产品形态是还需要进一步推进下去的,唯一的差别在于内部应该怎么做,毕竟目前这些技术也没有开源,或提供稳定的API,尤其是在于不仅仅是用,还希望做fine-tuning或train的需求时,这些技术未必可用或好用,所以要做好两手准备。而且对于一些特殊的行业,包括信创,本身就需要自主可控,那么这也给了图谱的产业链提出了升级和协同的要求,一些做国产LLM的公司也将并加入到KG的产业链上游中,通过这些对下游客户和应用更熟悉的KG厂商进行赋能和渗透。

王:Gartner曲线中KG早就过了峰值,在走下坡路,应该更多从KG research往KG toolset甚至KG ecosystem发展,让他类似互联网,变成更好用,更易用,ChatGPT出圈也是这个道理。

王:我觉得这些话如果可以让更多人知道,第一,希望可以引起大家的讨论,我说的也不完全,甚至可能有错误或偏差;第二,也希望中间对的东西能让大家少走弯路,避免;第三呢,我也希望整个KG圈大家的mindset可以升级,只有KG圈繁荣,这样搞KG的人才有好的活路,哈哈。

刘:是的,最近社区讨论最多的话题就是chatgpt下kg是否有必要。我个人觉得不是替代关系,而是竞争和融合关系。

王:其实我觉得短期可以做原来的KG,中期应该是chatGPT enhanced或based KG,长期应该是新的KG研制和发展路线。竞合总是存在的,是好事。Gartner曲线中KG早就过了峰值,在走下坡路,应该更多从KG research往KG toolset甚至KG ecosystem发展,让他类似互联网,变成更好用,更易用,ChatGPT出圈也是这个道理。

刘:您觉得kg这种表示方式会迎来改变么?

王:会的,KG本身即使是符号化表征也遇到各种问题,特别对于时空、多模态、动态流程化,甚至个体化等方面的表达能力很有限;另一方面表达相对总是简单的,更难得是表达了之后的执行,就像SQL或其他DSL总是简单定义的,包括各种语法,语义等,但是没有强大的数据库系统以及后期的大数据系统,这种声明式语言是没有生命力的;同样的道理KG本身的新表征下的高效执行,很多时候可能需要考虑LLM,甚至完全依赖其来执行;另一方面,语言作为知识最好的载体,是否随着ChatGPT的到来,重启Natural language interface,尤其是在包括医疗、司法等领域,自然语言的表述可能更自然呢?这个我觉得也一定会有一些尝试,现在路在何方还没有定论,而且也不希望是只有一条路,而是多样化发展,通过实践出新的真知。

二、一点思考和总结

以大规模预训练语言模型为基础的chatgpt成功出圈,在近几日已经给人工智能板块带来了多次涨停,这足够说明这一风口的到来。而作为曾经的风口“知识图谱”而言,如何找到其与chatgpt之间的区别,找好自身的定位显得尤为重要。

形式化知识和参数化知识在表现形式上一直都是大家考虑的问题,两种技术都应该有自己的定位与价值所在。

知识图谱构建往往是抽取式的,而且往往包含一系列知识冲突检测、消解过程,整个过程都能溯源。以这样的知识作为输入,能在相当程度上解决当前ChatGPT的事实谬误问题,并具有可解释性。基于知识图谱的推理也能增强当前模型的推理能力。除此之外,ChatGPT还能提升知识获取的能力,因此这两项技术能够相互迭代、共同提升。

从根本上讲,知识图谱本质上是一种知识表示方式,其通过定义领域本体,对某一业务领域的知识结构(概念、实体属性、实体关系、事件属性、事件之间的关系)进行了精确表示,使之成为某个特定领域的知识规范表示。随后,通过实体识别、关系抽取、事件抽取等方法从各类数据源中抽取结构化数据,进行知识填充,最终以属性图或RDF格式进行存储。

从问题角度大模型在语义理解上的路线是对的,但不是真正理解背后的意思,事实正确性上有待提升,人构建的知识图谱事实正确性会可控一些但成本高不好用。

当然,ChatGPT也有明显的不足。文献一中认为,大家公认的,是它善于一本正经地胡说八道,因为ChatGPT是一个黑盒计算,当下在内容的可信性和可控性上有一定局限。“我们要给它足够正确的知识,再引入知识图谱这类知识管理和信息注入技术,还要限定它的数据范围和应用场景,使得它生成的内容更为可靠”。

而就chatgpt而言,其的缺陷也是存在的。

首先,无法联网使用,因此缺乏最新信息。 答案中常有事实谬误:例如认为alphago是OpenAI的技术,把历史人物和作品张冠李戴,对莫须有的技术词张口就来、解释得头头是道。

其次,推理计算能力不足,难以给出靠谱的预测推断和建立潜在的关联。 对稍有复杂的数学计算题也常给出无比自信的错误答案。

另外,可解释性弱,无法给出知识和信息的来源。 同时也缺乏实体,也就无法真正触达人类的现实世界,只能通过”语言接口“与人类沟通交流。缺乏隐私保护机制。

但如果chatgpt创造出大量的内容之后,并作为数据源导入到知识图谱当中,那么就会影响知识图谱的准确性,这无疑有需要引起重视。

参考文献

1、https://baijiahao.baidu.com/s?id=1756724195686383844

2、https://zhuanlan.zhihu.com/p/590380191


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

4cd133d5567d3644c91c1c2f64ca32c4.png

点击阅读原文,进入 OpenKG 网站。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/128979165

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次,点赞7次,收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加 外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案,在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建:添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体,挺好看的。注重颜值的网站都会使用,例如知乎:font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--action,当提交表单时,向何处发送表单中的数据,地址可以是相对地址也可以是绝对地址--><!--method将表单中的数据传送给服务器处理,get方式直接显示在url地址中,数据可以被缓存,且长度有限制;而post方式数据隐藏传输,_html表单的处理程序有那些

PHP设置谷歌验证器(Google Authenticator)实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证(即Google Authenticator服务)后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次,点赞5次,收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节,实现了多层数据的堆叠,为用户 提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制(CoW)策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的,不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次,点赞27次,收藏13次。网络拓扑结构是指计算机网络中各组件(如计算机、服务器、打印机、路由器、交换机等设备)及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式,也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数,兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次,点赞5次,收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时,通常的做法是:new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的,而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠,也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑,需要做一些额外的特殊处理,笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数,一劳永逸,避免每次ne_date.prototype 将所有 ios

如何将EXCEL表导入plsql数据库中-程序员宅基地

文章浏览阅读5.3k次。方法一:用PLSQL Developer工具。 1 在PLSQL Developer的sql window里输入select * from test for update; 2 按F8执行 3 打开锁, 再按一下加号. 鼠标点到第一列的列头,使全列成选中状态,然后粘贴,最后commit提交即可。(前提..._excel导入pl/sql

Git常用命令速查手册-程序员宅基地

文章浏览阅读83次。Git常用命令速查手册1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区 git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,包括untracked的文件...

分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120-程序员宅基地

文章浏览阅读202次。分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120

【C++缺省函数】 空类默认产生的6个类成员函数_空类默认产生哪些类成员函数-程序员宅基地

文章浏览阅读1.8k次。版权声明:转载请注明出处 http://blog.csdn.net/irean_lau。目录(?)[+]1、缺省构造函数。2、缺省拷贝构造函数。3、 缺省析构函数。4、缺省赋值运算符。5、缺省取址运算符。6、 缺省取址运算符 const。[cpp] view plain copy_空类默认产生哪些类成员函数

推荐文章

热门文章

相关标签