从 huggingface 数据集流式传输音频数据,或模拟给定示例数据的流式处理

Streaming audio data from a huggingface dataset, or emulate streaming given the sample data

提问人:Stan 提问时间:11/14/2023 更新时间:11/14/2023 访问量:11

问:

我想从包含音频数据的 huggingface.co 访问各种数据集。首先,我使用的是 GigaSpeech 数据集。

我了解如何使用 (通过在调用时包括 .但是,这似乎会立即下载整个音频文件,因为返回的项具有一个键,其值包含键和 ,其中似乎包含整个音频文件的示例数据。IterableDatasetstreaming=Trueload_dataset(...)audiopatharrayarray

我正在使用 ,它似乎支持从 URL(即来自远程文件)流式传输。我想知道是否有可能让 IterableDataset(或类似的东西)遍历音频文件的 URL,而不是直接下载它们。torchaudio.io.StreamReader

如果这是不可能的:我已经在缓存文件夹中查看了几次,但我找不到音频文件,甚至找不到似乎暗示的文件夹。无论如何,由于似乎包含文件中的音频数据,因此读取源文件本身似乎没有必要。但是,似乎不支持从数组“流式传输”。我想知道最好的方法是什么,可以轻松地执行“流式处理”,并可能对数组进行重新采样(其是,但在某些时候需要转换为)。patharraytorchaudio.io.StreamReaderdtypetorch.float64numpy.float32

显然,我可以在数组上实现自己的窗口化和重采样,但如果我能使用与 StreamReader 非常相似的开箱即用的预先存在的东西,那就更好了。

音频-流式处理 拥抱面部数据集 torchaudio

评论


答: 暂无答案