torch 问答列表

Transformer 在训练期间工作完美,而在推理中工作得很糟糕?

作者:mrghafari 提问时间:11/6/2023

我在我的架构中添加了三层转换器,任务是压缩。训练验证和损失在训练期间工作得很好,而在推理过程中,情况很糟糕,准确性显着下降。我不确定这是否与过拟合有关,但情节至少没有显示(如果我没错的话)。变压器怎么...

如何从 Pytorch 代码中保存自定义版本的 CIFAR-10 并在 TensorFlow Colab 代码中使用它?

作者:Baraa 提问时间:11/7/2023

我有一个 Pytorch 程序,可以动态生成 CIFAR-10 的自定义版本(它不会保存自定义的 CIFAR-10,但该程序会下载原始数据集,对其进行自定义,并将其用于训练)。我想将自定义的 CIFA...

PyTorch load_state_dict() 不加载精确值

作者:Random Seed 提问时间:11/7/2023

为简单起见,我想使用此代码将火炬模型的所有参数设置为常量72114982 model = Net() params = model.state_dict() for k, v in params....

如何将 cudaArray 转换为 Torch 张量?

作者:rbaleksandar 提问时间:10/31/2023

我正在尝试使用 Torch 和 CUDA。到目前为止,使用我能够做到以下几点:torch::from_blob() #include <cuda_runtime.h> #include <torch...

带有 shuffle=False 的数据加载器,但图像顺序在每个纪元中都会发生变化

作者:mor hale 提问时间:11/5/2023

即使我使用图像随机化每个时代。'shuffle=False' 下面是用于创建加载程序的代码: data_set = dset.CIFAR10(root='./data/cifar10', trai...

pytorch transformers BertModel 中的tgt_key_padding_mask

作者:carpet119 提问时间:11/8/2023

在浏览 PyTorch 中的转换器文档时,我看到形状(batch_size、tgt_seq_len)的tgt_key_padding_mask用于表示由于填充而使 tgt 的某些部分无关紧要。当我从 ...

在深度学习量化投资领域,如何对输入特征进行标准化?

作者:Yaohua Guo 提问时间:11/10/2023

当使用深度学习模型进行量化投资时,输入特征在不同维度上可能具有不同的尺度。我们如何标准化这些特征,使模型训练更加稳定,避免计算中的梯度爆炸或nan/inf值等问题? 例如,我们的输入特征是 [最低价...

Torch 分布式绑定端口过多,阻碍 128 进程创建

作者:cangozpi 提问时间:11/10/2023

我正在尝试使用火炬分布式包进行分布式 cpu 训练。在我的代码中,我通过调用 ddp_setup() 初始化和创建组,如下所示: def get_dist_info(): GLOBAL_WORLD...

近端策略优化实现不收敛:离散环境

作者:Bernardo Olisan 提问时间:11/10/2023

我从头开始为离散环境实施了近端策略优化 (PPO)。该算法涉及初始化策略网络、状态值函数和动作值函数(作为神经网络函数近似器)。该过程包括策略推出,其中策略网络和值函数使用梯度下降进行更新,并在每个时...

RuntimeError:预期的 2D(未批处理)或 3D(批处理)输入到 conv1d,但输入大小:[1, 1, 2, 160000]

作者:Yunus Koç 提问时间:11/9/2023

我有一种火炬训练脚本来转录音频文件。我有 2 个音频文件,其中一个有 [1 1 16000]形状,另一个有 [1 1 16000]。两个文件都是 10 秒。我无法处理错误。如果您对音频有所了解,也许会...


共132条 当前第9页