提问人:1Mayur 提问时间:11/7/2023 更新时间:11/17/2023 访问量:25
FFMPEG MP3 块到 WAV 块在音频开头增加了间隙
ffmpeg mp3 chunk to wav chunk adds gap in the start of the audio
问:
我有一个来自 URL 的 mp3 流,我将块保存在 1024 byes 缓冲区大小中。
在我获得所有块后,我用于将传入的 mp3 块(22050 单声道)转换为 wav 块。ffmpeg
当我打开/播放 wav 块时,我看到每个块的开头都有一个空隙。
这是我在 Python 子进程中为所有保存的块循环运行的代码
subprocess.run(["ffmpeg", "-i",
f"{Path.cwd()}/input/{path}",
f"{Path.cwd()}/temp_output/{path.replace('.mp3', '')}.wav"
])
这是终端中的输出
processing: test-016.mp3
ffmpeg version 6.0 Copyright (c) 2000-2023 the FFmpeg developers
built with Apple clang version 15.0.0 (clang-1500.0.40.1)
configuration: --prefix=/usr/local/Cellar/ffmpeg/6.0_1 --enable-shared --enable-pthreads --enable-version3 --cc=clang --host-cflags= --host-ldflags='-Wl,-ld_classic' --enable-ffplay --enable-gnutls --enable-gpl --enable-libaom --enable-libaribb24 --enable-libbluray --enable-libdav1d --enable-libjxl --enable-libmp3lame --enable-libopus --enable-librav1e --enable-librist --enable-librubberband --enable-libsnappy --enable-libsrt --enable-libsvtav1 --enable-libtesseract --enable-libtheora --enable-libvidstab --enable-libvmaf --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxml2 --enable-libxvid --enable-lzma --enable-libfontconfig --enable-libfreetype --enable-frei0r --enable-libass --enable-libopencore-amrnb --enable-libopencore-amrwb --enable-libopenjpeg --enable-libspeex --enable-libsoxr --enable-libzmq --enable-libzimg --disable-libjack --disable-indev=jack --enable-videotoolbox --enable-audiotoolbox
libavutil 58. 2.100 / 58. 2.100
libavcodec 60. 3.100 / 60. 3.100
libavformat 60. 3.100 / 60. 3.100
libavdevice 60. 1.100 / 60. 1.100
libavfilter 9. 3.100 / 9. 3.100
libswscale 7. 1.100 / 7. 1.100
libswresample 4. 10.100 / 4. 10.100
libpostproc 57. 1.100 / 57. 1.100
[mp3 @ 0x7fd48e104480] Format mp3 detected only with low score of 25, misdetection possible!
[mp3 @ 0x7fd48e104480] Skipping 463 bytes of junk at 0.
[mp3 @ 0x7fd48e104480] Estimating duration from bitrate, this may be inaccurate
Input #0, mp3, from '/Users/mayur/Projects/input/test-016.mp3':
Duration: 00:00:00.39, start: 0.000000, bitrate: 169 kb/s
Stream #0:0: Audio: mp3, 22050 Hz, mono, fltp, 160 kb/s
Stream mapping:
Stream #0:0 -> #0:0 (mp3 (mp3float) -> pcm_s16le (native))
Press [q] to stop, [?] for help
Output #0, wav, to '/Users/mayur/Projects/temp_output/test-016.wav':
Metadata:
ISFT : Lavf60.3.100
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 22050 Hz, mono, s16, 352 kb/s
Metadata:
encoder : Lavc60.3.100 pcm_s16le
size= 17kB time=00:00:00.36 bitrate= 379.7kbits/s speed= 253x
video:0kB audio:17kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.451389%
我也尝试了pydub,遇到了类似的问题。
答:
音频压缩算法一次对单个数据块进行操作。一个压缩数据块被解压缩到固定持续时间的原始数字音频数据缓冲区中。这些块在不同的上下文中称为数据包、样本或接入单元。ffmpeg 称它们为数据包。使用 MP3 和类似的有损压缩策略时,输入块的大小会因音频的性质和压缩级别而异。与 VBR 相比,使用 CBR 压缩时,大小变化较小,但块的大小仍然不是恒定的。
您的方法出现的情况是,1024 字节的固定输入缓冲区大小与数据包边界不一致。数据包在缓冲区边界上被拆分。当 ffmpeg 从流中间生成缓冲区时,它必须向前跳以找到下一个数据包的开头。跨越缓冲区边界的数据包丢失,因为它无法解码部分数据包。
MP3 使用魔术字节序列来标记新数据包的开头:0xFF 0xFB。为了不丢失数据,您需要找到上一个缓冲区中的最后一个0xFF 0xFB,并将所有数据从那里复制到缓冲区末尾到下一个缓冲区的开头。
不过,您的音频仍然听起来不对。对于几乎每种音频压缩策略,第一个数据包之后的每个数据包都依赖于前一个数据包中的一些信息,以便听起来正确。解码器保存前一个数据包中的一些信息,并在解码下一个数据包时使用该信息。由于您从每个缓冲区生成单独的 ffmpeg 进程,因此前一个数据包中的信息将丢失。这将导致WAV文件的开头有时在播放时听起来有点错误。
您真正需要做的是将新的缓冲区附加到单个流上,并让单个 ffmpeg 进程解码整个过程。我假设你想在解码它时这样做,所以你可能不只是想下载整个东西,然后一次解码它。我认为ffmpeg可以从一些进程间和网络源进行解码。也许您可以生成 ffmpeg 进程,然后将字节附加到管道或本地网络端口。
有关如何执行此操作的更多信息,我将查看有关如何将输入通过管道输送到 ffmpeg 的问题以及有关如何写入子进程 stdin 的问题。
评论