【疑难杂症】关于Transformer到底是什么

在学习transform的时候，很多视频上来就是一张图开始解释图里面残差网络，self-attention等等巴拉巴拉的意思，然后组装，看也看完了，但是还是不明白transformer和selfattention究竟扮演了甚么样的角色，尤其是transformer，我甚至一度在想这不就是别人做好的自己组装一下嘛。在不断的查询后我找出了以下解释：

一开始做机器翻译，搞出来了RNN这种可以根据单词出现的前后顺序来调整具体意思的网络模型，但是由于句子之间的单词数量并不能一一对应，然后人们就搞出来seq2seq，这样一种基于编码器和解码器的模型，他可以先由encoder提取句子的意思，再用decoder转换意义为目标输出，依靠意义这一本质中介，成功达成了不对等序列之间的转换。

但是意义单元存储的信息有限，如果输入的句子信息太长，就会有很多务必要输入的数据，翻译的精度就下降了，所以就有了注意力机制，它可以在生成每个单词时，有意识的从原始句子中提取生成该单词时最需要的信息，成功摆脱长度限制，但是由于这样的计算方式太慢了，RNN需要一个一个看过去句子里面的单词才能给出输出。人们就进一步给出了

self-attention，因为我attention都已经给句子中每个元素打过分了，那我还需要时间序列干啥呢？于是先提取每个单词的意义，再依据生产顺序选取所需要的信息，这样的话就可以支持并行运算，也很接近人类的翻译方式，到这里，一个基于self-attrntion的encoder和decoder模型，我们就叫他transformer

参考视频链接：

https://www.bilibili.com/video/BV1Zz4y127h1

https://www.bilibili.com/video/BV1MY41137AK

【疑难杂症】关于Transformer 到底是什么的相关教程结束。

《【疑难杂症】关于Transformer到底是什么.doc》

下载本文的Word格式文档，以方便收藏与打印。

【疑难杂症】关于Transformer到底是什么

【疑难杂症】关于Transformer 到底是什么的相关教程结束。

相关推荐

C#里的var和dynamic区别到底是什么，你真的搞懂了嘛

Transformer 估算 101

seq2seq和Transformer

用Python手把手教你搭一个Transformer！

【译】图解Transformer

【译】在Transformer中加入相对位置信息

泛函编程（27）－泛函编程模式－Monad Transformer

通透，23 个问题 TCP 疑难杂症全解析

【疑难杂症】关于Transformer到底是什么

【疑难杂症】关于Transformer到底是什么的相关教程结束。

相关推荐

C#里的var和dynamic区别到底是什么，你真的搞懂了嘛

Transformer 估算 101

seq2seq和Transformer

用Python手把手教你搭一个Transformer！

【译】图解Transformer

【译】在Transformer中加入相对位置信息

泛函编程（27）－泛函编程模式－Monad Transformer

通透，23 个问题 TCP 疑难杂症全解析

【疑难杂症】关于Transformer 到底是什么的相关教程结束。