序列到序列预测转换器:需要归一化
作者:p.k 提问时间:11/1/2023
我正在尝试使用结构化数据创建一个用于序列到序列预测的转换器模型。我们是否需要对输入数据进行规范化?作为标准,转换器架构已经实现了层规范化。 如果我们需要归一化,应该如何归一化?只有编码器的输入或解码...
transformer-model 问答列表
作者:p.k 提问时间:11/1/2023
我正在尝试使用结构化数据创建一个用于序列到序列预测的转换器模型。我们是否需要对输入数据进行规范化?作为标准,转换器架构已经实现了层规范化。 如果我们需要归一化,应该如何归一化?只有编码器的输入或解码...
作者:carpet119 提问时间:11/8/2023
在浏览 PyTorch 中的转换器文档时,我看到形状(batch_size、tgt_seq_len)的tgt_key_padding_mask用于表示由于填充而使 tgt 的某些部分无关紧要。当我从 ...