Transformer 在训练期间工作完美,而在推理中工作得很糟糕?
作者:mrghafari 提问时间:11/6/2023
我在我的架构中添加了三层转换器,任务是压缩。训练验证和损失在训练期间工作得很好,而在推理过程中,情况很糟糕,准确性显着下降。我不确定这是否与过拟合有关,但情节至少没有显示(如果我没错的话)。变压器怎么...
torch 问答列表
作者:mrghafari 提问时间:11/6/2023
我在我的架构中添加了三层转换器,任务是压缩。训练验证和损失在训练期间工作得很好,而在推理过程中,情况很糟糕,准确性显着下降。我不确定这是否与过拟合有关,但情节至少没有显示(如果我没错的话)。变压器怎么...
作者:Baraa 提问时间:11/7/2023
我有一个 Pytorch 程序,可以动态生成 CIFAR-10 的自定义版本(它不会保存自定义的 CIFAR-10,但该程序会下载原始数据集,对其进行自定义,并将其用于训练)。我想将自定义的 CIFA...
作者:Random Seed 提问时间:11/7/2023
为简单起见,我想使用此代码将火炬模型的所有参数设置为常量72114982 model = Net() params = model.state_dict() for k, v in params....
作者:rbaleksandar 提问时间:10/31/2023
我正在尝试使用 Torch 和 CUDA。到目前为止,使用我能够做到以下几点:torch::from_blob() #include <cuda_runtime.h> #include <torch...
作者:mor hale 提问时间:11/5/2023
即使我使用图像随机化每个时代。'shuffle=False' 下面是用于创建加载程序的代码: data_set = dset.CIFAR10(root='./data/cifar10', trai...
作者:carpet119 提问时间:11/8/2023
在浏览 PyTorch 中的转换器文档时,我看到形状(batch_size、tgt_seq_len)的tgt_key_padding_mask用于表示由于填充而使 tgt 的某些部分无关紧要。当我从 ...
作者:Yaohua Guo 提问时间:11/10/2023
当使用深度学习模型进行量化投资时,输入特征在不同维度上可能具有不同的尺度。我们如何标准化这些特征,使模型训练更加稳定,避免计算中的梯度爆炸或nan/inf值等问题? 例如,我们的输入特征是 [最低价...
作者:cangozpi 提问时间:11/10/2023
我正在尝试使用火炬分布式包进行分布式 cpu 训练。在我的代码中,我通过调用 ddp_setup() 初始化和创建组,如下所示: def get_dist_info(): GLOBAL_WORLD...
作者:Bernardo Olisan 提问时间:11/10/2023
我从头开始为离散环境实施了近端策略优化 (PPO)。该算法涉及初始化策略网络、状态值函数和动作值函数(作为神经网络函数近似器)。该过程包括策略推出,其中策略网络和值函数使用梯度下降进行更新,并在每个时...
作者:Yunus Koç 提问时间:11/9/2023
我有一种火炬训练脚本来转录音频文件。我有 2 个音频文件,其中一个有 [1 1 16000]形状,另一个有 [1 1 16000]。两个文件都是 10 秒。我无法处理错误。如果您对音频有所了解,也许会...