CCKS知识图谱问答大赛作为中文知识图谱领域的最高比赛,在国内知识图谱问答技术等相关研究中有着重要地位,该项赛事的评测也成为全国知识图谱与语义计算大会上最受关注环节之一。
12月25日-26日,第十五届全国知识图谱与语义计算大会CCKS 2021正式召开,会上发布了“2021 CCKS知识图谱问答大赛”最终结果,百分点认知智能实验室在“CCKS 2021:生活服务知识图谱问答评测”任务中荣获季军和技术创新奖两项荣誉。
百分点认知智能实验室
荣获大赛季军及技术创新奖
CCKS由中国中文信息学会语言与知识计算专业委员会主办,是国内知识图谱和计算语义领域的核心学术盛会,聚集了知识表示、自然语言理解、知识获取、智能问答等相关技术领域的和研究人员的学者和研究人员。
本次大会以“知识图谱赋能新基建”为主题,致力于为研究者们提供一个测试技术、算法、及系统的平台,共同探讨大数据环境下语言理解、知识获取、知识融合、知识推理等方面的关键技术,以及在新基建背景下的各种智能应用。
2021 CCKS知识图谱问答大赛于2021年3月启动,吸引了2300多支参赛队伍,其中,在“CCKS 2021:生活服务知识图谱问答评测”任务中,有430支队伍、460人参赛,该任务是自然语言处理领域兼具前沿性和综合性的任务,开发难度较大。
经过激烈的竞争,最终进入排名的仅16支队伍,百分点认知智能实验室“系统之神与我同在”团队提交的技术方案荣获季军,以明显的优势进入第一梯队,与第二梯队拉开较大的差距。
知识图谱作为承载底层海量知识并支持上层智能应用的重要载体,在智能时代中扮演了极其重要的角色,但由于知识图谱高度结构化的特点,常常需要构建结构化查询语句SPARQL等来查找相关知识,这为普通用户使用知识图谱造成了不便,因此在知识图谱上进行自然语言问答KBQA近年来也成为了前者的热门应用之一。
本次评测任务是希望参赛者们可以提出创新性的KBQA系统,同时处理“专而深”的特定领域和“广而浅”的开放领域知识图谱,对用户提出的复杂多样的自然语言问题给出准确答案。此外,更希望此次评测可以为KBQA的下一步研究和落地提供一些理论及实践层面的启发。
传统问题类型
赛题任务的问题分为传统问题类型和特殊问题类型,特殊问题类型添加了filter、order等函数和http://www.w3.org/2001/XMLSchemafloat等RDF标准类型后缀的美团生活服务类问题。
经典问题
问题:
武汉大学出了哪些科学家
查询语句:
select ?x where {?x .?x .} 武汉大学gt; 毕业院校gt; 科学家_从事科学研究的人群gt; 职业gt;
答案:
" " 王小村gt; 石正丽gt; 刘西尧gt; 张贻明gt; 郭传杰gt;
问题:
凯文·杜兰特得过哪些奖?
查询语句:
select ?x where { ?x . } 主要奖项gt; 凯文·杜兰特gt;
答案:
"7次全明星2010-2016” “5次NBA最佳阵容一阵2010-2014” “NBA得分王2010-2012;2014” “NBA全明星赛MVP2012” "NBA常规赛MVP2014"
问题:
获得性免疫缺陷综合征涉及哪些症状?
查询语句:
select ?x where { ?x.} 涉及症状gt; 获得性免疫缺陷综合征gt;
答案:
" " 右下腹痛伴呕吐gt; 高凝状态gt; 免疫缺陷gt; 不明原因发热gt; 低蛋白血症gt; 心源性呼吸困难gt; 抑郁gt; 肾源性水肿gt; 心力衰竭gt; 脾肿大gt; 淋巴结肿大gt;
问题:
詹妮弗·安妮斯顿出演了一部1994年上映的美国情景剧,这部美剧共有多少集?
查询语句:
select ?y where {?x .?x ""1994"".?x ?y.} 集数gt; 上映时间gt; 詹妮弗·安妮斯顿gt; 主演gt;
答案:
"236"
本次CCKS评测任务中还添加了排序、过滤条件、聚合函数、limit等问题,例如:
在竞赛过程中,百分点认知智能实验室总结了本次评测任务的四大挑战:
知识图谱量级巨大,检索和召回复杂度高;
无效实体数量极多, 定位实体的难度较大;
赛题涉及的子任务多,且周期长,容易造成误差传播,且难以定位误差;
自然语言问法变化多,复杂程度高,机器难以理解中文的博大精深。
对此,百分点认知智能实验室创造性地提出了信息检索与语义解析结合的技术方案,通过实体链接、路径生成、路径排序等方式进行信息检索和语义解析,形成集成互补,对比信息检索和语义解析的答案路径分数,选取分数更高的路径,并结合NL2SQL算法,将知识图谱与预训练模型融合,通过逻辑推理进行复杂问题查询,让问答查询更接近于人的解析能力,更接近强人工智能。
业务赋能
实现复杂场景问题查询
本次评测得分及获奖证明该技术方案性能优异,执行效率高,具有良好的可扩展性,适用于众多不同业务场景的知识图谱系统中,能够实现多跳和夹式等包含多种语法现象的复杂问题的查询。
例如,在“运动员李娜的丈夫的主要奖项有哪些”问题查询中,首先进行语义解析生成Sparql语句。
第一步:利用句法解析技术,我们将其中与“修饰”关系相关的字词取出,得到“运动员-李娜amp;李娜-丈夫amp;丈夫-奖项amp;主要-奖。
第二步:利用百分点科技自研的基于知识图谱的知识预训练生成模型对问句进行语义解析,按照从序列到树的形式,先生成问句的意图,再生成意图的中间路径,然后生成问句中实体的约束条件,最终合并得到解析后的Sparql语。
但由于直接生成的Sparql可能与KG中存在的实体关系有差异,例如“李娜”的“丈夫”是用“配偶”存储的,故不能直接查询到答案。因此,百分点科技从Sparql中的实体出发若不存在该实体,则利用信息检索中的实体链接模块,生成候选路径,以Sparql为参考,弥补差异。
知识图谱、NLP
数据智能技术应用实践
本次评测任务属于中文知识图谱自然语言问答任务,是百分点认知智能实验室的重点研究方向。
早在2018年,百分点科技就成立了认知智能实验室,并将自然语言处理技术NLP与知识图谱技术相结合,将非结构化数据集成到知识图谱产品系统中,通过语音识别、机器视觉和自然语言处理技术NLP从多模态数据中提取语义标签,并融合知识图谱技术将其转化为知识,基于在知识理解、知识问答和知识挖掘方面的优势,帮助客户进行科学、精准的决策。
实践中,百分点科技不断实现创新突破,尤其是对认知层和决策层的智能技术和产品的投入,依托自然语言处理等技术,为客户提供最前沿、最全面的技术产品支撑。
目前,百分点认知智能实验室已经打造了业界领先的AI认知引擎,推出了智能问答机器人、智能翻译系统和智能审校系统等认知智能产品。
未来,百分点科技将继续深耕数据智能领域,充分发挥大数据全栈技术和NLP、知识图谱、智能交互等认知智能技术的优势,服务更多政府和企业进行智能化转型,助推数字经济产业发展。
车智汇的主要功能介绍 2019-03-08 | |
普及高像素!高通更新多款处理器参数:最高支持192000万 2019-03-12 | |
超威集团再获殊荣,获评“浙江省优秀研究中心”称号 2019-03-14 | |
服务再升级,新日品质服务月来袭 2019-03-14 | |
世界上最神奇的游泳池!只有床的大小,却永远游不到尽头 2019-03-16 |
Copyright© 2001-2019 本网 版权所有
本网站所刊登新闻,版权归中国新闻传媒集团所有。所有来源本网稿件未经授权,禁止下载使用。
《中华人民共和国电信与信息服务业务经营许可证》
中华人民共和国互联网新闻信息服务许可
互联网举报中心