大数据文摘出品 编译:林安安、钱天培 与基于RNN的手把手教方法相比,Transformer 不需要循环,百闻不码主要是手把手教由Attention 机制组成,因而可以充分利用python的百闻不码高效线性代数函数库,大量节省训练时间。手把手教 可是百闻不码,文摘菌却经常听到同学抱怨,手把手教Transformer学过就忘,百闻不码总是手把手教不得要领。 怎么办?百闻不码那就自己搭一个Transformer吧! 上图是谷歌提出的transformer 架构,其本质上是百闻不码一个Encoder-Decoder的结构。把英文句子输入模型,手把手教模型会输出法文句子。百闻不码 要搭建Transformer,我们必须要了解5个过程: 词向量层 位置编码 创建Masks 多头注意层(The Multi-Head Attention layer) Feed Forward层 词向量 词向量是神经网络机器翻译(NMT)的标准训练方法,能够表达丰富的词义信息。 在pytorch里很容易实现词向量: class Embedder(nn.Module): def __init__(self, vocab_size, d_model): super().__init__() self.embed = nn.Embedding(vocab_size, d_model) 当每个单词进入后,代码就会查询和检索词向量。模型会把这些向量当作参数进行学习,并随着梯度下降的站群服务器每次迭代而调整。 给单词赋予上下文语境:位置编程 模型理解一个句子有两个要素:一是单词的含义,二是单词在句中所处的位置。 每个单词的嵌入向量会学习单词的含义,所以我们需要输入一些信息,让神经网络知道单词在句中所处的位置。 Vasmari用下面的函数创建位置特异性常量来解决这类问题: 这个常量是一个2D矩阵。Pos代表了句子的顺序,i代表了嵌入向量所处的维度位置。在pos/i矩阵中的每一个值都可以通过上面的算式计算出来。 位置编码矩阵是一个常量,它的值可以用上面的算式计算出来。把常量嵌入矩阵,然后每个嵌入的单词会根据它所处的位置发生特定转变。 位置编辑器的香港云服务器代码如下所示: class PositionalEncoder(nn.Module): def __init__(self, d_model, max_seq_len = 80): super().__init__() self.d_model = d_model pe = torch.zeros(max_seq_len, d_model) range(max_seq_len): ): pe[pos, i] = \ * i)/d_model))) ] = \ ))/d_model))) ) , pe) x = x * math.sqrt(self.d_model) ) x = x + Variable(self.pe[:,:seq_len], \ ).cuda() 以上模块允许我们向嵌入向量添加位置编码(positional encoding),为模型架构提供信息。 在给词向量添加位置编码之前,我们要扩大词向量的数值,目的是让位置编码相对较小。这意味着向词向量添加位置编码时,词向量的原始含义不会丢失。 创建Masks Masks在transformer模型中起重要作用,主要包括两个方面: 在编码器和解码器中:当输入为padding,注意力会是0。 在解码器中:预测下一个单词,避免解码器偷偷看到后面的翻译内容。 输入端生成一个mask很简单: batch = next(iter(train_iter)) ) ] 同样的,Target_seq也可以生成一个mask,但是会额外增加一个步骤: # create mask as beforetarget_seq = batch.French.transpose(0,1 ) ] ) , size, size), ) ) 目标语句(法语翻译内容)作为初始值输进解码器中。解码器通过编码器的全部输出,以及目前已翻译的单词来预测下一个单词。 因此,我们需要防止解码器偷看到还没预测的单词。为了达成这个目的,我们用到了nopeak_mask函数: 当在注意力函数中应用mask,服务器托管每一次预测都只会用到这个词之前的句子。 多头注意力 一旦我们有了词向量(带有位置编码)和masks,我们就可以开始构建模型层了。 下图是多头注意力的结构: 多头注意力层,每一个输入都会分成多头(multiple heads),从而让网络同时“注意”每一个词向量的不同部分。 V,K和Q分别代表“key”、“value”和“query”,这些是注意力函数的相关术语,但我不觉得解释这些术语会对理解这个模型有任何帮助。 在编码器中,V、K和G将作为词向量(加上位置编码)的相同拷贝。它们具有维度Batch_size * seq_len * d_model. 在多头注意力中,我们把嵌入向量分进N个头中,它们就有了维度(batch_size * N * seq_len * (d_model / N). 我们定义最终维度 (d_model / N )为d_k。 让我们来看看解码器模块的代码: class MultiHeadAttention(nn.Module): def __init__(self, heads, d_model, dropout = 0.1): super().__init__() self.d_model = d_model self.d_k = d_model // heads self.h = heads self.q_linear = nn.Linear(d_model, d_model) self.v_linear = nn.Linear(d_model, d_model) self.k_linear = nn.Linear(d_model, d_model) self.dropout = nn.Dropout(dropout) def forward(self, q, k, v, mask=None): bs = q.size(0 ) , self.h, self.d_k) , self.h, self.d_k) , self.h, self.d_k) ) ) ) scores = attention(q, k, v, self.d_k, mask, self.dropout) ).contiguous()\ , self.d_model) output = self.out(concat) 计算注意力 计算注意力的公式 图解公式 这是另一个我们需要了解的公式,上面这幅图很好地解释了这个公式。 图中的每个箭头代表了公式的一部分。 首先,我们要用Q乘以K的转置函数(transpose),然后通过除以d_k的平方根来实现scaled函数。 方程中没有显示的一个步骤是masking。在执行Softmax之前,我们使用mask,减少输入填充(padding)的值。 另一个未显示的步骤是dropout,我们将在Softmax之后使用它。 最后一步是在目前为止的结果和V之间做点积(dot product)。 下面是注意力函数的代码: def attention(q, k, v, d_k, mask=None, dropout=None): scores = torch.matmul(q, k.transpose(-2, -1 )) / math.sqrt(d_k) : ) ) ) : scores = dropout(scores) output = torch.matmul(scores, v) 前馈网络 好了,如果你现在已经理解以上部分,我们就进入最后一步! 这一层由两个线性运算组成,两层中夹有relu和dropout 运算。 super().__init__() self.linear_1 = nn.Linear(d_model, d_ff) self.dropout = nn.Dropout(dropout) self.linear_2 = nn.Linear(d_ff, d_model) x = self.dropout(F.relu(self.linear_1(x))) x = self.linear_2(x) 最后一件事:归一化 在深度神经网络中,归一化是非常重要的。它可以防止层中值变化太多,这意味着模型训练速度更快,具有更好的泛化。 我们在编码器/解码器的每一层之间归一化我们的结果,所以在构建我们的模型之前,让我们先定义这个函数: super().__init__() self.size = d_model self.alpha = nn.Parameter(torch.ones(self.size)) self.bias = nn.Parameter(torch.zeros(self.size)) self.eps = eps )) \ ) + self.eps) + self.bias 把所有内容结合起来! 如果你已经清楚了上述相关细节,那么你就能理解Transformer模型啦。剩下的就是把一切都组装起来。 让我们再来看看整体架构,然后开始构建: 最后一个变量:如果你仔细看图,你可以看到编码器和解码器旁边有一个“Nx”。实际上,上图中的编码器和解码器分别表示编码器的一层和解码器的一层。N是层数的变量。比如,如果N=6,数据经过6个编码器层(如上所示的结构),然后将这些输出传给解码器,解码器也由6个重复的解码器层组成。 现在,我们将使用上面模型中所示的结构构建编码器层和解码器层模块。在我们构建编码器和解码器时,我们可以决定层的数量。 super().__init__() self.norm_1 = Norm(d_model) self.norm_2 = Norm(d_model) self.attn = MultiHeadAttention(heads, d_model) self.ff = FeedForward(d_model) self.dropout_1 = nn.Dropout(dropout) self.dropout_2 = nn.Dropout(dropout) x2 = self.norm_1(x) x = x + self.dropout_1(self.attn(x2,x2,x2,mask)) x2 = self.norm_2(x) x = x + self.dropout_2(self.ff(x2)) x super().__init__() self.norm_1 = Norm(d_model) self.norm_2 = Norm(d_model) self.norm_3 = Norm(d_model) self.dropout_1 = nn.Dropout(dropout) self.dropout_2 = nn.Dropout(dropout) self.dropout_3 = nn.Dropout(dropout) self.attn_1 = MultiHeadAttention(heads, d_model) self.attn_2 = MultiHeadAttention(heads, d_model) self.ff = FeedForward(d_model).cuda() x2 = self.norm_1(x) x = x + self.dropout_1(self.attn_1(x2, x2, x2, trg_mask)) x2 = self.norm_2(x) x = x + self.dropout_2(self.attn_2(x2, e_outputs, e_outputs, src_mask)) x2 = self.norm_3(x) x = x + self.dropout_3(self.ff(x2)) x 我们现在可以构建编码器和解码器了: super().__init__() self.N = N self.embed = Embedder(vocab_size, d_model) self.pe = PositionalEncoder(d_model) self.layers = get_clones(EncoderLayer(d_model, heads), N) self.norm = Norm(d_model) x = self.embed(src) x = self.pe(x) range(N): x = self.layers[i](x, mask) self.norm(x) super().__init__() self.N = N self.embed = Embedder(vocab_size, d_model) self.pe = PositionalEncoder(d_model) self.layers = get_clones(DecoderLayer(d_model, heads), N) self.norm = Norm(d_model) x = self.embed(trg) x = self.pe(x) range(self.N): x = self.layers[i](x, e_outputs, src_mask, trg_mask) Transformer模型构建完毕! super().__init__() self.encoder = Encoder(src_vocab, d_model, N, heads) self.decoder = Decoder(trg_vocab, d_model, N, heads) self.out = nn.Linear(d_model, trg_vocab) e_outputs = self.encoder(src, src_mask) d_output = self.decoder(trg, e_outputs, src_mask, trg_mask) output = self.out(d_output) output 训练模型 构建完transformer,接下来要做的是用EuroParl数据集进行训练。编码部分非常简单,但是要等两天,模型才会开始converge! 让我们先来定义一些参数: src_vocab = len(EN_TEXT.vocab) trg_vocab = len(FR_TEXT.vocab) model = Transformer(src_vocab, trg_vocab, d_model, N, heads) model.parameters(): : nn.init.xavier_uniform_(p) 现在,我们可以开始训练了: model.train() start = time.time() temp = start range(epochs): enumerate(train_iter): ) ) ] ) src_mask, trg_mask = create_masks(src, trg_input) preds = model(src, trg_input, src_mask, trg_mask) optim.zero_grad() )), results, ignore_index=target_pad) loss.backward() optim.step() ] : loss_avg = total_loss / print_every "time = %dm, epoch %d, iter = %d, loss = %.3f, , , loss_avg, time.time() - temp, print_every)) 示例训练输出:经过几天的训练后,模型的损失函数收敛到了大约1.3。 测试模型 我们可以使用下面的函数来翻译句子。我们可以直接输入句子,或者输入自定义字符串。 翻译器通过运行一个循环来工作。我们对英语句子进行编码。把<sos> token输进解码器,编码器输出。然后,解码器对第一个单词进行预测,使用<sos> token将其加进解码器的输入。接着,重新运行循环,获取下一个单词预测,将其加入解码器的输入,直到<sos> token完成翻译。 model.eval() : src = tokenize_en(src) sentence=\ tok sentence]])).cuda() ) e_outputs = model.encoder(src, src_mask) outputs = torch.zeros(max_len).type_as(src.data) ]]) , max_len): , i, i), ) ).cuda() ), e_outputs, src_mask, trg_mask)) ) ) ] ]: .join( outputs[:i]] Transformer模型的构建过程大致就是这样。想要获取完整代码,可以进入下面这个Github页面: https://github.com/SamLynnEvans/Transformer 相关报道: https://towardsdatascience.com/how-to-code-the-transformer-in-pytorch-24db27c8f9ec