多媒体计算实验室

1、实验室团队简介

我们生活在多模态的世界中，通过视觉、听觉、语言等不同模态进行学习、思考和表达。因此对于人工智能而言，深度理解我们生活的多模态世界是必不可少的能力。信息学院ai·m³实验室的主要研究方向就是对视觉，语言和语音等多媒体内容的深度语义理解，其中m³ 代表了深度理解的3个不同维度：

multi-level (多层次)：从易到难的不同层次学习。例如，从识别图像中的物体到构建图像整体的场景图，再到生成自然语言描述图片内容等。

multi-aspect (多方位)：从客观、主观等多方位理解世界。客观理解是人工智能的iq，而主观理解则是人工智能的eq，让人工智能得以理解人类的情感从而进行更好的交互。

multi-modal (多模态)：融合语音、文本、图像、视频等不同模态信息的全面理解。

实验室下载亚博app主页：https://www.jin-qin.com/aim3-lab.html

实验室知乎专栏：https://www.zhihu.com/column/c_1129360636513161216

2、科研方向及成果

ai·m³多媒体计算实验室由金琴教授带领，目前团队包括7名博士生，15名硕士生和若干名有志于科研的本科生。金琴教授于清华大学计算机科学与技术系获得学士、硕士学位，美国卡内基梅隆大学计算机学院语言技术系获得博士学位。实验室主要研究领域包括多媒体智能计算、人机交互等。在视觉描述生成、多媒体情感计算、跨模态交互等研究与应用中取得了杰出成就。

ai·m³研究团队在多项国际赛事上取得了优异的成绩，包括：蝉联2018-2020年cvpr activitynet dense video captioning task冠军；蝉联2017-2019年acm multimedia audio-visual emotion challenge (avec) 语音视觉情感识别挑战赛冠军；蝉联2017-2021年trecvid视频描述生成（vtt）冠军；2019年之江杯全球人工智能大赛视频内容描述生成冠军等。相关研究工作发表于国际顶级会议，包括cvpr, acl, acm multimedia, aaai, ijcai等。金琴教授指导的博士生陈师哲荣获百度全球奖学金（全球10位）。

师资介绍

金琴

多媒体计算实验室 -亚博888