将转录的文本与音频中的特定时间戳对齐

Aligning the transcribed text with specific timestamps in the audio

提问人:chaw 提问时间:11/13/2023 最后编辑:chaw 更新时间:11/13/2023 访问量:19

问:

在 Azure 中是否有可能,或者 Azure 中是否有服务可用于根据源视频的口语获取每个纯文本的位置?

基本上,我有一个纯文本,其中包含手动转录的单词。现在,这些文本将用于创建字幕,并且每个文本的每个计时都应取自音频源。

例:

srt 格式 00:00:01,002 -> 00:00:05,010 -->这是从视频源获取的 快速的棕色狐狸跳过懒惰的狗。-->文本文件中手动编码的文本

如果 Azure 无法做到这一点,我可以使用的任何资源都将有很大帮助。

谢谢!

我目前正在创建一个 c# 函数,用于比较 Azure 语音转文本与纯文本文件的 JSON 输出

C#-4.0 识别 语音 转文本语音

评论


答: 暂无答案