• 首 页
  • 分院概况
    • 分院简介
    • 机构设置
    • 现任领导
    • 历任领导
    • 历史沿革
  • 科教机构
    • 研究单位
    • 转制企业
    • 国科大学院
  • 党群园地
    • 组织机构
      • 党组织
      • 纪检组织
      • 工会组织
      • 团委机构
    • 党建动态
    • 反腐倡廉
    • 学习园地
    • 弘扬科学家精神
  • 人事人才
    • 院士
    • 高层次人才
    • 西部之光
    • 青促会
    • 工作动态
  • 科技合作
    • 合作概况
    • 院地合作
    • 科研进展
  • 科学传播
    • 科普文章
    • 科普动态
    • 科普基地
    • 学术期刊
  • 信息公开
    • 公开规定
    • 公开指南
    • 公开目录
    • 公开年度报告
    • 公开申请
  • 综合新闻
  • 通知公告
  • 视频新闻
  • 园区风貌
  • 媒体扫描
  • 重点平台
  • 专题
中国科学院| English| 继续教育
  • 首页
  • 分院概况
    分院简介
    成都分院前身系1958年11月成立的中科院四川分院,1962年调整更名为中科院西南分院,1970年由四川省管理,1978年1月恢复重建后使用现名,是西南地区综合性的科学研究基地、高级人才培养基地和高新技术产业化基地。
    更多简介+
    现任领导
    王嘉图
    分党组书记
    院长
    曲建升
    分党组副书记
    系统党委副书记
    刘庆
    副院长
    分党组成员
    蔡长江
    纪检组组长
    系统党委副书记
    机构设置 历任领导 历史沿革
  • 分院概况
    • 分院简介
    • 机构设置
    • 现任领导
    • 历任领导
    • 历史沿革
  • 科教机构
    研究单位
    • 光电技术研究所
    • 成都生物研究所
    • 成都山地灾害与环境
      研究所
    • 重庆绿色智能技术
      研究院
    • 成都文献情报中心
    转制企业
    成都有机化学
    有限公司
    成都信息技术股份
    有限公司
    成都中科唯实仪器
    有限责任公司
    国科大学院
    中国科学院大学
    成都学院
    中国科学院大学
    重庆学院
  • 科教机构
    • 研究单位
    • 转制企业
    • 国科大学院
  • 党群园地
    • 组织机构
      • 党组织
      • 纪检组织
      • 工会组织
      • 团委机构
    • 党建动态
    • 反腐倡廉
    • 学习园地
    • 弘扬科学家精神
  • 人事人才
    • 院士
    • 高层次人才
    • 西部之光
    • 青促会
    • 工作动态
  • 科技合作
    • 合作概况
    • 院地合作
    • 科研进展
  • 科学传播
    • 科普文章
    • 科普动态
    • 科普基地
    • 学术期刊
  • 信息公开
    • 公开规定
    • 公开指南
    • 公开目录
    • 公开年度报告
    • 公开申请
  • 头条新闻
  • 综合新闻
  • 通知公告
  • 视频新闻
  • 园区风貌
  • 媒体扫描
  • 重点平台
    • 大科学装置
    • 重点实验室
    • 工程中心
    • 野外台站
  • 专题
当前位置:
首页    科技合作    科研进展
科研进展

重庆研究院在自然语言问答的视频理解研究中取得进展

发布时间:2024-04-23 来源:重庆研究院 【  小 中 大  】 【打印】 【关闭】

现有自然语言问答的视频理解研究大多采用离线特征提取方式来进行问答推理,然而这种离线的处理方式存在一些缺陷:(1)视频或文本特征提取器通常是在其他任务上进行训练的,与目标任务存在差异,如将行为识别数据集上训练的特征提取器直接用于视频问答任务显然不是最优的。(2)各个特征提取器通常是在各自领域数据集上单独进行训练,得到的模态特征之间缺乏联系。(3)为提升问答推理表现,这类方法通常需借助于复杂的特征提取器或文本分析工具以更有效地处理视频或问题。因此,采取端到端的方式来对自然语言问题和视频内容进行学习是解决上述缺陷的一种有效途径。尽管近年来提出的端到端方法通过同时学习特征提取与多模态信息交互,并在问答推理上取得了优异的识别表现。然而,这些方法主要关注于构建参数量庞大的模型以及探索如何利用大规模视觉文本语料库的预训练来提升任务性能,而这通常需要耗费大量的计算资源,且在数据标注和模型训练上具有较高的人力成本。

我院研究团队针对现有研究方法存在的上述问题,提出了一种高效的端到端视频和语言联合学习方法。该方法结合了现有研究中所验证的局部空间信息和时间动态特性对于提升问答推理准确性的帮助,通过设计金字塔式视频和语言交互结构,将视频分解成具有不同粒度的空间和时间特征,并堆叠多个多模态 Transformer层提取其与问题之间的交互,实现了视频和文本之间的局部和全局依赖关系提取。此外,为更充分地利用各层上的局部和全局交互特征,该方法设计了一种基于上下文匹配的横向连接操作以及多步损失约束,以逐步地实现局部和全局语义完整的交互特征的提取。

方法框架图

本研究方法能够在无需建立参数量庞大的特征提取以及交互模型,且在不借助于大规模视觉文本数据对预训练的情况下,取得与现有方法相比更好或相当的推理表现。同时在模型参数量和计算效率上具有显著优势。相关成果发表在人工智能顶会议AAAI Conference on Artificial Intelligence(CCF A类)上。上述工作得到国家自然科学基金项目的支持。相关论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/25296



附件下载:

下一篇:成都生物所在高效精准合成糖类衍生物的研究中获进展
版权所有:中国科学院成都分院蜀ICP备05003826号-1川公网安备 51010702001710号
单位地址:四川天府新区群贤南街100号邮编:610213
网站标识码:bm48000019