动机
目前的方法中,都会将图像转化为高度为1的高级特征向量,这样的矢量可能包含不必要的噪声,文章提出了
有效的零件注意力网络(EPAN),用于
论文方法
编码部分
使用了CNN(Resnet),每一行进行编码,最后合并为一行
解码部分
glimpse attention
其中 e表示attention的分数。
其中F是编码部分的输出,r是上一时刻的lstm的输出
其中emb表示上一时刻输出的词向量,ht-1是上一时刻的lstm的输出
Refinement network.
其中A是 glimpse 得到的注意力掩码
与glimpse attention一样
其中gt是 上文计算得到的上下文信息,Ft是进过掩码的特征向量
新的上下文是特征向量