新利体育官网 分类
新利体育官网-【知识】如何进一步接近人类智能:多模态机器学习发布日期:2024-11-29 浏览次数:
本文摘要:人和动物通过视、听得、说道等途径感官和自学,本质上是多模态自学。

人和动物通过视、听得、说道等途径感官和自学,本质上是多模态自学。近些年,由于深度自学的发展,多模态机器学习更进一步沦为人工智能的研究热点。本文非常简单讲解多模态机器学习的内容和挑战,部分摘于CVPR2016和ACL2016的TutorialMultimodalLearningandReasoning[1],TutorialonMultimodalMachineLearning[2]。

  人在生活中的感官是多元的,还包括视觉、听力、触觉、味觉、嗅觉等等。任何感官能力的缺陷都有可能导致智力或能力的出现异常。

  基于此,多模态机器学习(MultimodalMachineLearning)为机器获取多模态数据处理能力。例如,看图说出,看电影翻译成。

多模态自学的长远目标是使机器充份感官环境,如感官人的情感、言辞、表情,更加智能地和环境展开交互。  目前,学术上较为成熟期的是视觉和语义之间的多模态自学。如对一张图片分解文字描述,或者针对一张图片的内容问适当的文字问题。

视觉信息一般来说用CNN处置,文本信息畅通用于RNN处置。多维度数据偏移的方式有attention机制,例如,看图说出里名词对应图里面哪个物体。并且,在很多传统机器学习任务上,多模态自学高于单模态机器学习,例如,辅助视觉信息的文本翻译成效果高于仅有用于文本信息。


本文关键词:新利体育官网

本文来源:新利体育官网-www.tyresquaremis.com