关于transformerrnn的信息

Transformer原理及其应用

transformer 最早使用于NLP模型中，使用了 Self-Attention 机制。相较于RNN结构可以进行并行化训练，能够拥有全局信息。

变压器的工作原理是用电磁感应原理工作的。变压器（Transformer）是利用电磁感应的原理来改变交流电压的装置，主要构件是初级线圈、次级线圈和铁芯（磁芯）。

变压器（Transformer）是利用电磁感应的原理来改变交流电压的装置，主要构件是初级线圈、次级线圈和铁芯（磁芯。主要功能有：电压变换、电流变换、阻抗变换、隔离、稳压（磁饱和变压器）等。

当电网中发生相间短路故障时，电流会突然增大，电压突然下降，过流保护就是按线路选择性的要求，整定电流继电器的动作电流的。

transformer是变压器电力变压器是一种静止的电气设备，是用来将某一数值的交流电压（电流）变成频率相同的另一种或几种数值不同的电压（电流）的设备。

关于transformerrnn的信息

Transformer是近两三年非常火的一种适用于NLP领域的一种模型，本质上是Encoder-Decoder结构，所以多应用在机器翻译(输入一个句子输出一个句子)、语音识别(输入语音输出文字)、问答系统等领域。

Multi-Head Attention就是把Scaled Dot-Product Attention的过程做h次，然后把输出合起来。

Transformer 与 RNN 不同，可以比较好地并行训练。Transformer 本身是不能利用单词的顺序信息的，因此需要在输入中添加位置 Embedding，否则 Transformer 就是一个词袋模型了。

思考：导致视觉和语言的masked autoencoder 不一样的三大原因规模大的简单算法是深度学习的核心。在NLP中，简单的自我监督学习方法能够从模型的规模中获益。在计算机视觉中，实用的预训练范例主要是监督式的。

而具体到突破自动驾驶的关键，就在于数据。得益于长城汽车规模化量产优势，顾维灏表示，毫末智行已经获得了自动驾驶快速迭代的制胜关键，并由此推出了数据智能体系MANA，以高效率＆低成本积累数据为核心，驱动自动驾驶技术不断迭代。

此外，AIDAY还展示了毫末自动驾驶数据体系MANA的升级情况，主要是其在视觉感知能力上的进展。

在Transformer 的大矩阵计算上，毫末通过对内外循环的数据拆分，尽量保持数据在 SRAM 中提升计算的效率；在传统的训练框架中，通过引入火山引擎提供的 Logo核心算子库实现融合，端到端吞吐提升 84%。

毫末智行CEO顾维灏也在详细阐释了建设智算中心的底层逻辑：“自动驾驶对智算中心的第一要求肯定是算力。智算中心的超大算力代表了有多少的AI工程师在这个练武场中能够做出什么大模型，能训练多少大模型。

在自动驾驶领域，毫末在国内最早将Transformer大模型引入到数据智能体系MANA当中。

Transformer 本身是不能利用单词的顺序信息的，因此需要在输入中添加位置 Embedding，否则 Transformer 就是一个词袋模型了。Transformer 的重点是 Self-Attention 结构，其中用到的 Q， K， V矩阵通过输出进行线性变换得到。

transformer模型中缺少一种解释输入序列中单词顺序的方法，它跟序列模型还不不一样。

Transformer的总架构如下图所示：这是典型的Transformer结构，简单来说，Transformer = 预训练(input) + Encoder*N + 预训练(output) + Decoder*N+output。

在Transformer出现之前，RNN系列网络以及seq2seq+attention架构基本上铸就了所有NLP任务的铁桶江山。

个人理解是 Transformer 的多头机制是为了让不同的头关注句子的不同地方，从而能够学习到不同的模式。