动机
attention机制中,有两种常见的注意力机制。additive attention 和 dot-product attention。并讨论到,当 query 和 key 向量维度 d 较小时,这两种注意力机制效果相当,但当d 较大时,additive attention 要优于 dot-product attention. 但是 dot-product attention 在计算方面更具有优势。为了利用 dot-product attention 的优势且消除当d较大时dot-product attention 的不足,采用 scaled dot-product attention。
先解释:为什么当较大时,向量内积容易取很大的值
假设 query 和 key 向量中的元素都是相互独立的均值为 0,方差为 1 的随机变量,那么这两个向量的内积 均值为 0,而方差为d
所以当维度d较大时,query 与key 内积的方差也较大。所以对齐分数相差很大。有的远大于0,有的远小于0
再解释:向量内积的值(对齐分数)较大时,softmax 函数梯度很小
那么如何消除如上 dot-product attention 的问题呢?一种方法就是论文中的对 dot-product attention 进行缩放(除以根号d