[读论文]Visual Translation Embedding Network for Visual Relation Detection

Metadata 文章标题: Visual Translation Embedding Network for Visual Relation Detection 作者: Hanwang Zhang, Zawlin Kyaw, Shih-Fu Chang, Tat-Seng Chua 文章发表: CVPR 2017 下载地址: CVPR 2017, arXiv 2017.02 Intro 这篇文章的主要目标是从图片中抽取一些实体之间的相互关系。例如下面这张图: 这篇文章提出了一个叫做VTransE (Visual

Visual Genome 浅析

最近准备研究VQA方向,于是对相关的数据和工作做了一些survey。 对于任何一个AI相关的任务,最重要的一点就是数据。由斯坦福Li Fei-Fei(Paper中就是这么写的,而不是Fei-Fei Li)提出的Visual Genome就是一个非常重要而且非常好用的数据集。 这篇博客将会整理总结Visual Genome这份数据集的官方Paper。其中融入了我的一些理解,如果有错请帮忙勘误,并多多包涵。谢谢 论文名称:Visual Genome 副标题: Connecting Language and Vision Using Crowdsourced Dense Image Annotations. 作者: Ranjay Krishna