一、 实验室团队简介
世上的数据只有变成知识才能被理解和传承,知识库就是存储和处理知识的库,里面都是知识。目前chatgpt的火爆出圈,就是因为其有一个庞大的知识库做支撑。本实验室专注于知识库的构建和应用,其语料是多模态的,包括文本、图片、视频和音频。结合最前沿的人工智能技术,推动知识库在危化品、诗歌、古文字以及动植物等领域的落地。
二、 基本研究方向
知识库最基本的研究是命名实体识别,该方向一个基本方向,本实验室从中文命名实体识别、英文命名实体识别到多模态命名实体识别都有研究。
知识库问答系统,该方面是知识库的一个基本应用,我们一直从事该方向的研究。
时序知识图谱,知识不是静态的,而是在逐步演化中。
实体链接,主要研究将自由文本中已识别的实体对象(例如:人名、地名、机构名等),无歧义的正确的指向知识库中目标实体的过程。通俗的讲,就是自由文本中的实体对象到底是个啥,找到知识库中最符合该实体的目标项。
知识库和数据库的关联关系,知识库可以看作网状数据库,因此它们之间有千丝万缕的联系。
三、 特色研究方向
实验室的特色研究方向:
危化品知识图谱的构建,安全是无论如何强调都是对的,而危化品知识图谱的构建有利于推广和普及相关人员对危化品的生产、运输、储存时注意的要点,避免事故发生。
汉字演化知识图谱,该方向首先要识别古文字,语料由历史学院的老师提供,以里耶秦简为主,揭示我们文字传承的机理。
动植物知识图谱,目前已经陆续收集了900多种植物的花和叶、30多种水果和60多种蔬菜的图片,后面将进一步扩大动植物的范围,从图片到文字介绍,构建我们特色知识库。
知识库中视频和音频的理解。
四、 近年来取得的工作成果
近年来,知识库智慧实验室在包括tkde、aaai、ijcai和information sciences等在内的国际高水平学术期刊和会议上发表论文几十篇,承担了国家自然科学基金、教育部归国留学人员项目等多个项目,参与国家863计划项目和校级重点项目等,承担了多项校企合作项目。本实验室和美国、加拿大、澳大利亚等多个国际研究团队和清华大学等国内单位开展合作研究,形成跨国跨校的协同培养机制,提升实验室学生的国际化水平和能力。并和京东、中国人寿和中石化等大厂或大型国企有广泛深入的合作,研究成果可以到这些企业落地。