信息学院金琴教授团队1篇论文被neurips 2023录用 -亚博888
近日,中国人民大学信息学院金琴教授团队aim3多媒体计算实验室1篇论文被神经信息处理系统大会neurips 2023录用。神经信息处理系统大会(annual conference on neural information processing systems,简称neurips)是中国计算机学会(ccf)推荐的a类国际学术会议,每年召开一次,今年是第37届会议。
论文第一作者是aim3多媒体计算实验室2022级博士生岳子豪。
论文介绍
learning descriptive image captioning via semipermeable maximum likelihood estimation
作者:岳子豪,胡安文,张良,金琴
通讯作者:金琴
论文概述:
图像描述任务(为给定图像生成自然语言描述)长期以来受到「输出过于平凡」的问题的困扰,即模型倾向于为不同图像生成缺乏细节的相似描述。在这项工作中,我们从学习目标的角度重新审视了这一问题——正如“一图胜千言”,一张图像的描述可以是多种多样的,传统的最大似然估计(mle)所提供的严格监督并不完全适合图像描述模型的优化。我们直观地将其优化过程解耦为使模型生成更丰富的“丰富性优化”和使模型生成更简洁的“简洁性优化”,并假设这两种优化的相互抗衡最终使得模型生成平凡描述。基于此,我们提出了一个新的学习目标——半渗透最大似然估计(smile),它允许“丰富性优化”而阻止“简洁性优化”,从而鼓励模型生成更丰富、包含更多细节的描述。
作者简介
岳子豪,中国人民大学信息学院2022级博士生,大数据科学与工程专业,主要研究方向是视觉语言理解。
金琴,中国中国人民大学信息学院计算机系教授,多媒体计算实验室(aim3)负责人。主要研究领域为多媒体智能计算、人机交互。