没啥用的铺垫,可以直接跳到Q&A

Q&A

Q1: Transformer中Multi-head Attention中每个head为什么要进行降维?

Q2:Transformer的点积模型做缩放的原因是什么?为什么缩放因子是$\sqrt(d_k)$?

Q3:为什么要添加位置编码,介绍一下各类位置编码。

后记

贴一个苏神的《Transformer升级之路》系列的笔记列表,苏神很多文章把数学和论文思想结合的很好,很推荐看: