首页>热门 > >正文

RNN到GPT文本生成的革命之路经历了什么(1)

2023-07-10 16:19:15 来源：个人图书馆-山峰云绕

(资料图)

首先，看下LSTM的几点优势：

而即便是LSTM出现之后，仍然存在一定的问题，为了解决这些问题，开始出现Attention机制。主要优势在于：

更好地捕捉长距离依赖关系：在LSTM中，信息需要从前向后依次传递，因此随着序列长度的增加，LSTM的性能会逐渐降低。而在Attention机制中，每个时间步骤都可以自适应地聚焦于最相关的部分，因此可以更好地捕捉长距离依赖关系。更好地处理变长输入序列：在LSTM中，输入序列需要进行填充或截断，使其长度相同。这会浪费大量的计算资源和内存，同时也会影响模型性能。而在Attention机制中，输入序列可以是变长的，因为注意力权重可以根据输入序列的长度动态计算。更好地处理多个输入序列：在LSTM中，通常需要将多个输入序列进行拼接或者堆叠。这样会使得模型的计算量和内存占用增加。而在Attention机制中，每个输入序列都可以单独计算注意力权重，因此可以更好地处理多个输入序列。

Attention机制可以自适应地聚焦于最相关的部分，更好地捕捉长距离依赖关系，更好地处理变长输入序列和多个输入序列。这使得Attention机制成为处理序列数据的一种非常有效的方法。

从Attention机制开始，其实RNN的发展或者说神经网络的发展才逐步的走向快速发展的时期，用一个不恰当的比喻：从SimpleRNN到LSTM再到Attention，相当于刚出生的婴儿到咿呀学语，现在终于会走路了。。。。等到下一期我再继续介绍Attentioin机制如何跟LSTM结合改善，再到Self-Attention（自注意力记住），再到Transformer再到GPT，才算是从走到跑，到幼儿园，小学。。。。

2017年Google发表论文《attention is all you need》,彻底引爆了attention的机制，然后出现了多头自注意力等。然后Transformer出现了，然后就是BERT，然后就是大家熟悉的GPT出现啦，今天带大家走马观花的了解一下发展过程，其实说来简单，但是这里每一步都少不了前辈学者们断探索和努力。

很有幸我们可以生在这个时代，见证这个时代！

变革时刻在发生。。。。

标签：