首页-_学术活动_教师

学术报告476:面向视觉问答的深层推理技术研究

发布日期:  2020/09/29  周时强   浏览次数: 部门:    返回

报 告 人:于静,中国科学院信息工程研究所

报告时间:10月16日(周五)10:00-12:00

报告地点:嘉定校区1-333(腾讯会议ID:687 579 018)

邀 请 人:马丽艳 副研究员

报告摘要:

随着网络中海量多媒体数据的快速增长,如何跨越视觉、语言等不同模态数据实现对现实世界更加泛化的分析和推理,对于提升计算机的智能水平至关重要。因此,结合视觉与语言(Vision and Language)是近年来比较热门的一个研究领域,也已经成为各大计算机视觉、自然语言处理主流会议的重要主题之一。其中视觉问答( Visual Question Answering,VQA)备受关注,该问题要求计算机根据给定图像和自然语言表达的问题,自动推理并给出答案,更接近人类的分析和认知能力。如何建立视觉信息与高层语义之间的跨模态关联、如何根据自然语言推理复杂的视觉内容已成为关键挑战。本报告将围绕“视觉关系理解-->多模态场景表示-->模块化记忆与推理-->深度知识关联”递进式视觉-语言推理框架,介绍本课题组近期的一些研究进展。

报告人简介:

于静,博士,中国科学院信息工程研究所助理研究员。主要从事跨模态智能分析领域的研究工作,包括视觉问答、视觉对话、跨媒体信息检索等热点问题。在国际重要学术期刊和会议上发表学术论文30余篇, 其研究成果发表于IEEE Trans. on Multimedia、Neurocomputing、Information Fusion、AAAI和IJCAI等。主持和参与多项国家级重点研发计划项目、中科院战略性先导专项项目、国家自然基金项目等,面向国家公共安全和网络安全提供领先的跨媒体数据分析技术和解决方案。个人主页:https://mmlab-iie.github.io/



上一条:学术报告477:目标检测、分割与跟踪

下一条:学术报告475:基于信赖域方法的图像恢复