aimc课题组研究成果被多媒体顶会acmmm 2023录用 -亚博888

更新时间：2023-08-10 17:19:19 浏览量：

信息学院人工智能与媒体计算课题组（aimc lab）关于开放场景多模态学习与评测的研究工作被2023年国际多媒体大会（acmmm）长文录用。acmmm是中国计算机学会推荐的多媒体领域a类国际学术会议。论文第一作者是我院2019级博士生陈坳珠。

论文题目：chinaopen: a dataset for open-world multimodal learning

论文作者：陈坳珠，王子源，董程博，田凯彬，赵瑞祥，梁循，康战辉，李锡荣

通讯作者：李锡荣

论文概述：

随着大语言模型和多模态大模型的出现和应用，学术界和工业界在视频自动标记 (video tagging)、视频描述生成 (video captioning)、跨模态视频检索 (text-to-video retrieval)等多个具有挑战性的视频内容理解和检索任务上均取得了明显进展，在任务特定的英文评测集上表现出了较好的性能。国内多家机构也陆续推出了中文多模态模型，比如用于跨模态图文匹配的cn-clip, taiyi, ernie-vil2和用于视觉描述生成的ofa-chinese等。尽管如此，这些模型在真实开放场景下的有效性仍有待验证。针对上述问题，本文基于b站数据构建了一个名为chinaopen的中文短视频研究数据集，用于开放场景多模态学习和多任务评测。该数据集由两部分组成，分别是弱标注训练集chinaopen-50k和人工标注测试集chinaopen-1k。chinaopen-50k的构建流程采用了包括文本分析、人脸识别、视频内容识别、视频标签相关性学习等多项关键技术，对原始b站数据进行自动清洗，从而提升训练数据质量。chinaopen-1k的每个视频带有不同维度的人工标注数据，包括i) 经人工核验的用户标题和标签、ii) 关于视频内容的一句话描述、iii) 视频中主要物体 (object) /动作(action)/场景 (scene)对应的标签等。上述多维度标注使得chinaopen-1k相比现有以英文为主的数据集有明显的独特性，即可用于评测特定模型关于客观或主观描述视频内容的能力，也可用于评测模型在视频内容自动标记以及辅助用户标记的能力。此外，chinaopen-1k的中文标注已人工翻译成英文，因此也适用于评测英文多模态模型。

chinaopen下载网址：

本项研究受国家自然科学基金面上项目(62172420)、2022腾讯下一代广告系统犀牛鸟重点研究计划、中国人民大学校级计算平台支持。

论文信息: aozhu chen, ziyuan wang, chengbo dong, kaibin tian, ruixiang zhao, xun liang, zhanhui kang, xirong li, chinaopen: a dataset for open-world multimodal learning, acmmm 2023

作者简介：

陈坳珠，中国人民大学信息学院2019级博士生，导师为李锡荣教授，她的研究方向为视频检索。

李锡荣，中国人民大学数据工程与知识工程教育部重点实验室教授、博导，信息学院人工智能与媒体计算课题组负责人。主要研究兴趣包括多媒体智能、计算机视觉、模式识别、ai辅助诊断等，在相关领域重要国际刊物上累计发表学术论文百余篇，谷歌学术引用5000余次。曾任国际多媒体建模会议multimedia modeling 2021 program co-chair。目前担任acm tomm、multimedia systems、iet computer vision等多个国际sci期刊的编委。