之前测试了aeneas的强制对齐,现在再使用Montreal Force Align完成强制对齐任务
首先是Montreal Force Align的安装,直接下载即可
/MontrealCorpusTools/Montreal-Forced-Aligner/releases/download/v1.1.0-beta.2/montreal-forced-aligner_win64.zip"
下载之后文件夹里会有bin和pretrained_models两个文件夹,然后我们cd到montreal-forced-aligner,执行bin/mfa_align和bin/mfa_train_and_align两条命令,如果会显示他们的用法代表我们安装成功
然后就是我们的数据准备阶段,我们每一个语音都需要准备两个文件,一个是该条语音文件(这里值的注意的是我们的语音文件最好是wav格式,采样16000),另一个是该条语音的label,label就是该条语音的内容是什么:举例:he is a good man,用空格隔开即可,文件后缀是./lab或./txt
因为我们要把单词转化为音素,根据文档中写的,我们还需要一个词典/mfa/dictionaries/english.dict,我们可以直接把这个网站链接另存为到我们文件夹中,
随后我们就可以执行bin/mfa_align corpus_directory dictionary acoustic_model output_directory
这里是四个参数
corpus_directory:包含我们的语音文件和文本的文件夹dictionary:我们刚刚下载的字典acoustic_model:声学模型,pretrained中的english.zip(注意这个文件不能解压)output_directory:输出目录文件夹
然后我们就以得到输出结果以textgrid结尾的分割结果
如果需要其他语言任务的对齐可以参考以下几篇文档
g2p模型和预训练模型和词典
https://montreal-forced-aligner.readthedocs.io/en/latest/pretrained_models.html#pretrained-g2p-models
一个使用说明文档
/tutorial/montreal-forced-aligner.html#overview-1
如果觉得《montreal英文音素级别强制对齐》对你有帮助,请点赞、收藏,并留下你的观点哦!