torch知识经验-第9页-解网

作者：mrghafari 提问时间：11/6/2023

我在我的架构中添加了三层转换器，任务是压缩。训练验证和损失在训练期间工作得很好，而在推理过程中，情况很糟糕，准确性显着下降。我不确定这是否与过拟合有关，但情节至少没有显示（如果我没错的话）。变压器怎么...

作者：Baraa 提问时间：11/7/2023

我有一个 Pytorch 程序，可以动态生成 CIFAR-10 的自定义版本（它不会保存自定义的 CIFAR-10，但该程序会下载原始数据集，对其进行自定义，并将其用于训练）。我想将自定义的 CIFA...

作者：Random Seed 提问时间：11/7/2023

为简单起见，我想使用此代码将火炬模型的所有参数设置为常量72114982 model = Net() params = model.state_dict() for k, v in params....

作者：rbaleksandar 提问时间：10/31/2023

我正在尝试使用 Torch 和 CUDA。到目前为止，使用我能够做到以下几点：torch::from_blob() #include <cuda_runtime.h> #include <torch...

作者：mor hale 提问时间：11/5/2023

即使我使用图像随机化每个时代。'shuffle=False' 下面是用于创建加载程序的代码： data_set = dset.CIFAR10(root='./data/cifar10', trai...

作者：carpet119 提问时间：11/8/2023

在浏览 PyTorch 中的转换器文档时，我看到形状（batch_size、tgt_seq_len）的tgt_key_padding_mask用于表示由于填充而使 tgt 的某些部分无关紧要。当我从 ...

作者：Yaohua Guo 提问时间：11/10/2023

当使用深度学习模型进行量化投资时，输入特征在不同维度上可能具有不同的尺度。我们如何标准化这些特征，使模型训练更加稳定，避免计算中的梯度爆炸或nan/inf值等问题？例如，我们的输入特征是 [最低价...

作者：cangozpi 提问时间：11/10/2023

我正在尝试使用火炬分布式包进行分布式 cpu 训练。在我的代码中，我通过调用 ddp_setup（）初始化和创建组，如下所示： def get_dist_info(): GLOBAL_WORLD...

作者：Bernardo Olisan 提问时间：11/10/2023

我从头开始为离散环境实施了近端策略优化（PPO）。该算法涉及初始化策略网络、状态值函数和动作值函数（作为神经网络函数近似器）。该过程包括策略推出，其中策略网络和值函数使用梯度下降进行更新，并在每个时...

作者：Yunus Koç 提问时间：11/9/2023

我有一种火炬训练脚本来转录音频文件。我有 2 个音频文件，其中一个有 [1 1 16000]形状，另一个有 [1 1 16000]。两个文件都是 10 秒。我无法处理错误。如果您对音频有所了解，也许会...