当前位置: 首页 > 文章 > 利用人工智能神经网络体系结构生成视觉问答系统中的自然语言解释 西南大学学报(自然科学版) 2024,46 (10) 212-221
Position: Home > Articles > 利用人工智能神经网络体系结构生成视觉问答系统中的自然语言解释 Journal of Southwest University(Natural Science Edition) 2024,46 (10) 212-221

利用人工智能神经网络体系结构生成视觉问答系统中的自然语言解释

作  者:
原蕾;王科俊
单  位:
郑州工商学院信息工程学院;北京理工大学(珠海校区)信息学院
关键词:
可解释;视觉系统;人工智能;神经网络;转换器
摘  要:
模型可解释性长期以来一直是人工智能领域备受关注的问题.在视觉问答(Visual Question Answering, VQA)系统中,特别需要处理视觉(图像)和语言(问题)之间的协同推理,以产生解释性强且可靠的答案.然而,现有方法通常集中于单独处理视觉和语言特征,未能捕捉到VQA所需的高低级交互关系,也未能提供答案生成过程的解释.针对以上问题,该研究提出一种创新方法,即基于Transformer的可解释路径VQA方法.首先利用Transformer编码器层分别提取预训练的卷积神经网络(Convolutional Neural Network, CNN)和领域特定语言模型(Language Model, LM)的视觉和语言特征.随后,解码器层被嵌入,并对编码特征进行上采样,用于最终的VQA预测.通过在具有挑战性的VQA-X数据集和e-SNLI-VE数据集上大量的实验验证了该方法的有效性.实验结果表明:该方法在定性和定量评估方面明显优于其他先进方法,不仅有助于解释VQA模型的单幅图像结果,还为理解VQA模型的行为提供了有益参考.
计量
文章访问数: 15
HTML全文浏览量: 0
PDF下载量: 0

所属期刊