中国人民大学首次以第一单位获评acm sigmod研究亮点奖!祝贺范举教授团队 -亚博888
近日,信息学院范举教授团队的论文《unicorn: 支持数据集成中匹配任务的统一多任务模型》(unicorn: a unified multi-tasking model for supporting matching tasks in data integration)获得国际计算机学会数据管理专业委员会(acm sigmod)2024年研究亮点奖(research highlight award)。该论文的第一作者为信息学院2020级硕士生涂荐泓,指导教师为信息学院范举教授、杜小勇教授。中国人民大学首次以第一单位获得该奖项,也是本年度唯一获得该奖项的的中国机构。该论文也是中国人民大学与北京市大数据中心联合研究的成果,基于成果研发的相关工具集已在北京市真实场景落地。
“acm sigmod研究亮点奖”设立于2016年,旨在表彰体现核心数据库与数据管理研究的成果,其遴选标准是“涉及重要问题,并且是解决该问题的一个明确里程碑,有潜力产生重大影响力”的研究。其遴选范围是2023年数据库与数据管理领域发表的所有顶级会议及期刊论文(包括sigmod、vldb、pods等),每年仅有10篇左右论文获得该奖项。中国人民大学是第三所获得此奖项的境内高校,前两所获奖的境内高校分别是清华大学和上海交通大学。
获奖论文介绍
数据融合(data integration)是数据管理领域长期研究的基础性问题,在大数据分析、知识图谱构建、人工智能训练数据准备等方面有着广泛应用。数据匹配是数据融合中最具挑战的核心问题,旨在判断多源异构数据是否在语义上等价。在过去的40多年中,不同的研究领域(如数据库、人工智能、语义万维网、数据挖掘等)从不同的角度对数据匹配进行广泛研究,提出了模式匹配、实体匹配、本体对齐、语义标注等一系列任务。然而,现有研究主要针对单个数据匹配任务或单个数据集设计专用模型,缺乏对不同类型数据匹配任务的通用下载亚博app的解决方案。本文提出同时支持多种匹配任务的统一模型unicorn,其优势在于将不同数据匹配任务统一到一个端到端的模型,并且多任务学习机制使得不同任务间可以共享知识并实现互相增益。基于7类常见数据匹配任务实验表明:与特定于任务和数据集的专用模型相比,unicorn不仅取得了更好的匹配精度,而且具备更好的泛化能力。该论文的原始版本已发表于sigmod 2023会议。
获奖团队简介
范举教授的研究团队隶属中国人民大学信息学院、数据工程与知识工程教育部重点实验室,近年来在杜小勇教授的指导下,开展了大量关于数据治理技术的研究工作,在相关领域承担了包括国家自然科学基金优秀青年科学基金项目、面上项目、重点项目课题,以及ccf-华为胡杨林基金、ccf-腾讯犀牛鸟基金等多项产学研项目。团队近年来在数据库领域的顶级会议(sigmod、vldb、icde等)与顶级期刊(vldb journal、ieee tkde等)发表ccf-a类论文60余篇,研究成果在北京市大数据中心、华为、微信等场景落地应用,取得良好成效。