FFMPEG MP3 块到 WAV 块在音频开头增加了间隙-解网

问：

我有一个来自 URL 的 mp3 流，我将块保存在 1024 byes 缓冲区大小中。在我获得所有块后，我用于将传入的 mp3 块（22050 单声道）转换为 wav 块。ffmpeg

当我打开/播放 wav 块时，我看到每个块的开头都有一个空隙。

这是我在 Python 子进程中为所有保存的块循环运行的代码

subprocess.run(["ffmpeg", "-i",
    f"{Path.cwd()}/input/{path}",
    f"{Path.cwd()}/temp_output/{path.replace('.mp3', '')}.wav"
])

这是终端中的输出

processing: test-016.mp3
ffmpeg version 6.0 Copyright (c) 2000-2023 the FFmpeg developers
  built with Apple clang version 15.0.0 (clang-1500.0.40.1)
  configuration: --prefix=/usr/local/Cellar/ffmpeg/6.0_1 --enable-shared --enable-pthreads --enable-version3 --cc=clang --host-cflags= --host-ldflags='-Wl,-ld_classic' --enable-ffplay --enable-gnutls --enable-gpl --enable-libaom --enable-libaribb24 --enable-libbluray --enable-libdav1d --enable-libjxl --enable-libmp3lame --enable-libopus --enable-librav1e --enable-librist --enable-librubberband --enable-libsnappy --enable-libsrt --enable-libsvtav1 --enable-libtesseract --enable-libtheora --enable-libvidstab --enable-libvmaf --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxml2 --enable-libxvid --enable-lzma --enable-libfontconfig --enable-libfreetype --enable-frei0r --enable-libass --enable-libopencore-amrnb --enable-libopencore-amrwb --enable-libopenjpeg --enable-libspeex --enable-libsoxr --enable-libzmq --enable-libzimg --disable-libjack --disable-indev=jack --enable-videotoolbox --enable-audiotoolbox
  libavutil      58.  2.100 / 58.  2.100
  libavcodec     60.  3.100 / 60.  3.100
  libavformat    60.  3.100 / 60.  3.100
  libavdevice    60.  1.100 / 60.  1.100
  libavfilter     9.  3.100 /  9.  3.100
  libswscale      7.  1.100 /  7.  1.100
  libswresample   4. 10.100 /  4. 10.100
  libpostproc    57.  1.100 / 57.  1.100
[mp3 @ 0x7fd48e104480] Format mp3 detected only with low score of 25, misdetection possible!
[mp3 @ 0x7fd48e104480] Skipping 463 bytes of junk at 0.
[mp3 @ 0x7fd48e104480] Estimating duration from bitrate, this may be inaccurate
Input #0, mp3, from '/Users/mayur/Projects/input/test-016.mp3':
  Duration: 00:00:00.39, start: 0.000000, bitrate: 169 kb/s
  Stream #0:0: Audio: mp3, 22050 Hz, mono, fltp, 160 kb/s
Stream mapping:
  Stream #0:0 -> #0:0 (mp3 (mp3float) -> pcm_s16le (native))
Press [q] to stop, [?] for help
Output #0, wav, to '/Users/mayur/Projects/temp_output/test-016.wav':
  Metadata:
    ISFT            : Lavf60.3.100
  Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 22050 Hz, mono, s16, 352 kb/s
    Metadata:
      encoder         : Lavc60.3.100 pcm_s16le
size=      17kB time=00:00:00.36 bitrate= 379.7kbits/s speed= 253x    
video:0kB audio:17kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.451389%

我也尝试了pydub，遇到了类似的问题。

python-3.x 音频流 ffmpeg-python

音频压缩算法一次对单个数据块进行操作。一个压缩数据块被解压缩到固定持续时间的原始数字音频数据缓冲区中。这些块在不同的上下文中称为数据包、样本或接入单元。ffmpeg 称它们为数据包。使用 MP3 和类似的有损压缩策略时，输入块的大小会因音频的性质和压缩级别而异。与 VBR 相比，使用 CBR 压缩时，大小变化较小，但块的大小仍然不是恒定的。

您的方法出现的情况是，1024 字节的固定输入缓冲区大小与数据包边界不一致。数据包在缓冲区边界上被拆分。当 ffmpeg 从流中间生成缓冲区时，它必须向前跳以找到下一个数据包的开头。跨越缓冲区边界的数据包丢失，因为它无法解码部分数据包。

MP3 使用魔术字节序列来标记新数据包的开头：0xFF 0xFB。为了不丢失数据，您需要找到上一个缓冲区中的最后一个0xFF 0xFB，并将所有数据从那里复制到缓冲区末尾到下一个缓冲区的开头。

不过，您的音频仍然听起来不对。对于几乎每种音频压缩策略，第一个数据包之后的每个数据包都依赖于前一个数据包中的一些信息，以便听起来正确。解码器保存前一个数据包中的一些信息，并在解码下一个数据包时使用该信息。由于您从每个缓冲区生成单独的 ffmpeg 进程，因此前一个数据包中的信息将丢失。这将导致WAV文件的开头有时在播放时听起来有点错误。

您真正需要做的是将新的缓冲区附加到单个流上，并让单个 ffmpeg 进程解码整个过程。我假设你想在解码它时这样做，所以你可能不只是想下载整个东西，然后一次解码它。我认为ffmpeg可以从一些进程间和网络源进行解码。也许您可以生成 ffmpeg 进程，然后将字节附加到管道或本地网络端口。

有关如何执行此操作的更多信息，我将查看有关如何将输入通过管道输送到 ffmpeg 的问题以及有关如何写入子进程 stdin 的问题。

也许我无法清楚地表达我的评论，我要求任何示例来保持子进程处于活动状态，以继续向 stdin 发送块并继续获得块 stdout。一旦我将第一个块发送到 stdin 并传达进程以获取该输出，我就卡住了，然后该进程无法接受另一个输入。输入流即将到来，我想流式传输输出，而不是等待整个输入流完成

0赞 Colin Andrews 12/20/2023

对不起，我不知道如何帮助你。

上一个：从 huggingface 数据集流式传输音频数据，或模拟给定示例数据的流式处理

下一个：音频流、NextJS、Flask Socket.IO

FFMPEG MP3 块到 WAV 块在音频开头增加了间隙

ffmpeg mp3 chunk to wav chunk adds gap in the start of the audio

评论

评论