报 告 人:刘李(教授),香港科技大学(广州)
报告时间:5 月 16 日(周四)14:30
报告地点:计算机大楼 1106 会议室
邀 请 人:方昱春 教授
报告摘要:
自动线索语识别与生成主要用于智能无障碍人机交互。其中线索语编码系统利用唇型和手势编码
口语来辅助听障人群交流。我们首次提出了中文线索语系统。对于线索语识别,我们最近提出了一种
基于低秩 Transformer 的跨模态互学习框架以促进多模态交互。与传统方法相比,我们的模型通过模
态无关字典表示来编码不同模态的模态特定信息,从而得到多模态共同表征的语言信息。对于线索语
生成,我们提出了一种思维链提示学习的线索语视频扩散生成框架,利用大语言模型和提示工程来捕
捉文本描述与手势特征之间的复杂关系,提高生成的手势视频的准确性和多样性。此外,我们构建了
首个大规模多人中文线索语视频数据集。我们的方法在不同语种的线索语数据集(中文、法语和英语)
上取得了最佳的识别和生成性能。
报告人简介:
刘李目前是香港科技大学(广州)的助理教授、博导。她在法国格勒诺布尔阿尔卑斯大学和法国
国家科学研究中心共属的 GIPSA-lab 获得博士学位。曾担任加拿大 Ryerson University 的博士后研究
员。她的主要研究方向是多模态视听语音识别与生成、医疗人工智能以及 AI 鲁棒性等。她目前在人工
智能领域已以第一作者身份或通讯作者发表论文 40 多篇,其中包括此领域顶级杂志和会议 TPAMI,
TMM, TMI, Neurips, ICCV, IJCAI, ECCV, ACM MM, ICASSP 等。她曾担任 2022 年语音信号处理顶会
ICASSP 的 Local Chair (China site) 以及 2024 ICASSP Area Chair。她曾荣获“深圳市海外高层次
人才-孔雀人才”。作为项目负责人,她主持国家自然科学基金委员会-青年基金项目、广东省区域联合
基金-青年基金项目、腾讯 AI Lab 犀牛鸟专项计划以及阿里巴巴创新研究计划项目等。她曾在 2017
年荣获法国 Sephora Berribi 数学与计算机领域女性科学家奖。她团队文章分别于 2022、2023 年获得
深圳市科协人工智能优秀论文奖。