以翻译为例:
source:我 是 中国人
target: I am Chinese
比如翻译目标单词为 I 的时候,Q为I
而source中的 “我” “是” “中国人”都是K,
那么Q就要与每一个source中的K进行对齐(相似度计算);”I”与”我”的相似度,”I”与”是”的相似度;”I”与”中国人”的相似度;
相似度的值进行归一化后会生成对齐概率值(“I”与source中每个单词的相似度(和为1)),也可以注意力值;
而V代表每个source中输出的context vector;如果为RNN模型的话就是对应的状态向量;即key与value相同;
然后相应的V与相应的P进行加权求和,就得到了context vetor;