提问人:Stan 提问时间:11/14/2023 更新时间:11/14/2023 访问量:11
从 huggingface 数据集流式传输音频数据,或模拟给定示例数据的流式处理
Streaming audio data from a huggingface dataset, or emulate streaming given the sample data
问:
我想从包含音频数据的 huggingface.co 访问各种数据集。首先,我使用的是 GigaSpeech 数据集。
我了解如何使用 (通过在调用时包括 .但是,这似乎会立即下载整个音频文件,因为返回的项具有一个键,其值包含键和 ,其中似乎包含整个音频文件的示例数据。IterableDataset
streaming=True
load_dataset(...)
audio
path
array
array
我正在使用 ,它似乎支持从 URL(即来自远程文件)流式传输。我想知道是否有可能让 IterableDataset
(或类似的东西)遍历音频文件的 URL,而不是直接下载它们。torchaudio.io.StreamReader
如果这是不可能的:我已经在缓存文件夹中查看了几次,但我找不到音频文件,甚至找不到似乎暗示的文件夹。无论如何,由于似乎包含文件中的音频数据,因此读取源文件本身似乎没有必要。但是,似乎不支持从数组“流式传输”。我想知道最好的方法是什么,可以轻松地执行“流式处理”,并可能对数组
进行重新采样(其是,但在某些时候需要转换为)。path
array
torchaudio.io.StreamReader
dtype
torch.float64
numpy.float32
显然,我可以在数组上实现自己的窗口化和重采样,但如果我能使用与 StreamReader 非常相似的开箱即用的预先存在的东西,那就更好了。
答: 暂无答案
评论