Dataset 问答列表

将 tf.dataset 转换为 PyTorch 数据集?

作者:skidjoe 提问时间:5/1/2021

我正在做这个项目,其中所有数据都经过预处理并准备好作为 TensorFlow 数据集,如下所示: <MapDataset shapes: {input_ids: (128,), input_mask...

在 tf.data 中切片会导致“迭代 'tf.Graph 执行中不允许出现 Tensor'“错误

作者:momo 提问时间:4/8/2021

我创建了一个数据集,如下所示,其中是图像文件路径列表, 例如。.我需要提取文件夹路径,例如,然后进行一些其他操作。我尝试使用以下函数来执行此操作。image_train_path[b'/content...

将 tf.data.Dataset 元组拆分为两个数据集

作者:Justin 提问时间:11/5/2023

我有成批的 3D tf.data.Dataset 用于训练,由于我的主系统需要这种方式,我需要将其拆分为 train_X 和train_Y。我使用以下方法进行拆分,但得到奇怪的结果。有人可以发表评论或...

Spark Dataframe 与传统对象映射器

作者:Sanjeev Kumar 提问时间:11/17/2023

在典型用例中,传统的对象映射器用于抽象代码和数据库。在我的方案中,我使用 spark 从源读取数据并转换为 DataFrame。我的情况的目标是 GCP BQ。在这种情况下,使用传统对象映射器映射到 ...

在大型数据集上使用提取的特征向量进行图像聚类

作者:vmchance 提问时间:11/3/2023

我一直在尝试在一个非常大的图像数据集(大约 100 万张图像)上使用多种聚类技术。该过程非常标准 - 例如,使用预训练的 CNN(在本例中为 VGG19)来提取特征并测试许多聚类方法(目前是分层和 k...

tf.data API 'flat_map' 方法,用于在字典中使用 VariantDatasets 在窗口方法后解包

作者:Didlex 提问时间:11/8/2023

当尝试使用 flat_map 方法解压缩特征字典中的子 VariantDatasets 时,我很难理解要解析为 flat_map 方法的函数,以成功获取用于训练的时间序列数据集。 我定义数据集并映射...

使用 Huggingface 数据集,如何将特定特征设置为 numpy 数组,以便在重新加载时它们是 ndarrays?

作者:Jaggz 提问时间:11/8/2023

使用 load_dataset() 加载 Mozilla Common Voice (v11) 数据集时,生成的数据集 (ds) 将 audio.arrays 作为 numpy 数组。我不知道如何重现...

DatasetGenerationError:尝试在本地加载通用语音时生成数据集时出错

作者:FOXASDF 提问时间:11/9/2023

之后我下载了整个 Common Voice,我尝试加载数据集,但它无法加载,我什至从 pip 重新安装了数据集库。 一旦进入数据生成过程,它就会给出错误。 from datasets import ...

在 Tensorflow 中组合多个时间序列的滑动窗口

作者:AGecko 提问时间:11/16/2023

我有许多(O(100万))时间序列,每个时间序列大约有 30 个时间步长。时间步长的数量因样本而异。我想在每个时间序列上使用滑动窗口来生成训练样本。目标是立即处理每个窗口的时间步长。将每个滑动窗口的结...

使用 spark sql 的 intelliJ 上不相关的歧义方法调用错误

作者:Anis Smail 提问时间:10/23/2017

此 spark sql 代码编译并运行,但 intelliJ (idea-IU-172.4343.14) 显示“Ambigious 方法调用”错误。 public static void main(...


共25条 当前第1页