肿瘤康复网,内容丰富有趣,生活中的好帮手!
肿瘤康复网 > 语音合成方法 装置 设备及计算机可读存储介质与流程

语音合成方法 装置 设备及计算机可读存储介质与流程

时间:2019-01-16 21:10:30

相关推荐

本发明涉及语音合成技术领域,尤其涉及一种语音合成方法、装置、设备及计算机可读存储介质。

背景技术:

语音合成技术是指利用机器学习算法学习文本特征与语音声学参数的映射关系。

为了保证声学参数的短时平稳性,传统语音合成方法主要是基于音素级别建模,获取文本对应的音素序列,提取每个音素的音素特征,将文本的音素序列的音素特征输入传统的时长预测模型,得到每个音素的时长;根据每个音素的时长和音素特征输入参数统计模型,得到每个音素的声学参数,也就是说,基于音素级别建模,获取音素时长和音素的声学参数。但是,这样会导致合成参数过于平均,难以符合高自然度的合成要求,导致语音合成质量差。

技术实现要素:

本发明提供一种语音合成方法、装置、设备及计算机可读存储介质,用以解决现有的语音合成方法基于音素级别建模,合成参数过于平均,难以符合高自然度的合成要求,导致语音合成质量差的问题。

本发明的一个方面是提供一种语音合成方法,包括:

根据输入文本的音素序列和音素特征,确定所述输入文本的音节单元,以及所述音节单元的音节特征,每个所述音节单元包括第一音素和第二音素,所述第二音素为所述输入文本的原始音素;

将所述音节单元的音节特征,输入时长预测模型,计算得到音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长;

根据所述音节单元的时长,以及所述音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长,确定所述输入文本的原始音素的时长;

根据所述输入文本的原始音素的时长,将所述输入文本的原始音素扩充为帧序列单元,确定所述输入文本的帧序列和帧特征;

根据所述输入文本的帧特征,确定所述输入文本的声学参数,并进行语音合成。

本发明的另一个方面是提供一种语音合成装置,包括:

音节生成模块,用于根据输入文本的音素序列和音素特征,确定所述输入文本的音节单元,以及所述音节单元的音节特征,每个所述音节单元包括第一音素和第二音素,所述第二音素为所述输入文本的原始音素;

时长预测模块,用于将所述音节单元的音节特征,输入时长预测模型,计算得到音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长;

音素时长确定模块,用于根据所述音节单元的时长,以及所述音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长,确定所述输入文本的原始音素的时长;

帧特征生成模块,用于根据所述输入文本的原始音素的时长,将所述输入文本的原始音素扩充为帧序列单元,确定所述输入文本的帧序列和帧特征;

声学参数处理模块,用于根据所述输入文本的帧特征,确定所述输入文本的声学参数,并进行语音合成。

本发明的另一个方面是提供一种语音合成设备,包括:

处理器,存储器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序;

其中,所述处理器运行所述计算机程序时实现上述所述的语音合成方法。

本发明的另一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的语音合成方法。

本发明提供的语音合成方法、装置、设备及计算机可读存储介质,通过根据输入文本的音素序列和音素特征,确定所述输入文本的音节单元,以及所述音节单元的音节特征,通过获取音节单元的特征,能够在音节粒度上更好地捕获输入文本的韵律变化特征;然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长,根据所述输入文本的原始音素的时长,将所述输入文本的原始音素扩充为帧序列单元,确定所述输入文本的帧序列和帧特征;根据所述输入文本的帧特征,确定所述输入文本的声学参数,并进行语音合成,能够将在音节粒度上捕获的韵律变化特征传递给底层音素,能够更好地捕获上下文特征,提高语音合成的自然度,提高语音合成的质量。

附图说明

图1为本发明实施例一提供的语音合成方法流程图;

图2为本发明实施例二提供的语音合成方法流程图;

图3为本发明实施例二提供的时长预测模型的示意图;

图4为本发明实施例二提供的声学参数模型的示意图;

图5为本发明实施例三提供的语音合成装置的结构示意图;

图6为本发明实施例五提供的语音合成设备的结构示意图。

通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明所涉及的术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。

实施例一

图1为本发明实施例一提供的语音合成方法流程图。本发明实施例针对现有的语音合成方法基于音素级别建模,合成参数过于平均,难以符合高自然度的合成要求,导致语音合成质量差的问题,提供了语音合成方法。

本实施例中的方法应用于语音合成设备,该语音设备可以是智能手机、平板电脑、AR设备等移动终端,也可以是用于进行语音合成的服务器设备等,在其他实施例中,该方法还可应用于其他设备,本实施例以语音合成设备为例进行示意性说明。

如图1所示,该方法具体步骤如下:

步骤S101、根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征,每个音节单元包括第一音素和第二音素,第二音素为输入文本的原始音素。

通过对用户输入的输入文本进行文本分析,可以得到输入文本的音素序列和音素特征。其中,音素序列是由输入文本的原始音素,按照在输入文本中的先后顺序排列成的序列;输入文本的音素特征包括输入文本中每个原始音素的音素特征。

本实施例中,根据输入文本的音素序列和音素特征,结合输入文本的自然音节的划分,生成输入文本的音节单元,以及每个音节单元的音节特征。

其中,音节单元包括2个音素,分别记为第一音素和第二音素,音节单元中至少一个音素是输入文本的原始音素。音节单元的音节特征的维度是音素特征维度的2倍,一个音节单元的音节特征包括构成该音节单元的第一音素的音素特征和第二音素的音素特征。例如,音节单元的音节特征可以由第一音素的音素特征和第二音素的音素特征拼接构成。

步骤S102、将音节单元的音节特征,输入时长预测模型,计算得到音节单元的总时长,以及音节单元中第一音素和第二音素的预测时长。

其中,时长预测模型为预先训练好的神经网络模型,时长预测模型的输入为输入文本的所有音节单元的音节特征,输出为输入文本的每个音节单元的总时长、第一音素的预测时长和第二音素的预测时长。

本实施例中,在确定输入文本的音节单元的音节特征之后,将输入文本的所有音节单元的音节特征,输入时长预测模型,可以计算得到输入文本中每个音节单元的总时长,以及每个音节单元中第一音素和第二音素的预测时长。

步骤S103、根据音节单元的时长,以及音节单元的总时长,以及音节单元中第一音素和第二音素的预测时长,确定输入文本的原始音素的时长。

每个音节单元包括第一音素和第二音素,其中至少一个是输入文本的原始音素。

示例性的,可以直接将第一音素和第二音素的预测时长分别作为第一音素的时长和第二音素的时长。

示例性的,还可以根据第一音素的预测时长和第二音素的预测时长所成的比例,将音节单元的总时长分配给第一音素和第二音素,得到第一音素和第二音素的时长。

示例性的,还可以根据音节单元中第一音素和第二音素是否均为输入文本的原始音素,结合第一音素的预测时长和第二音素的预测时长所成的比例,将音节单元的总时长分配给第一音素和第二音素,得到第一音素和第二音素的时长。

步骤S104、根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征。

在确定输入文本的原始音素的时长之后,可以将每个原始音素扩充为一个帧序列单元,该帧序列单元包含的帧数与原始音素的时长一致,其中每个帧均为该原始音素。

其中,输入文本的帧序列由输入文本的原始音素对应的帧序列单元排列构成。输入文本的帧特征包括输入文本的帧序列中每个帧的帧特征;也就是,输入文本的帧特征包括输入文本的原始音素对应的帧序列单元中每个帧的帧特征。

步骤S105、根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成。

在得到输入文本的帧特征之后,根据预设的声学参数模型,可以计算得到输入文本的声学参数,并根据得到的输入文本的声学参数进行语音合成。

本发明实施例通过根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征,通过获取音节单元的特征,能够在音节粒度上更好地捕获输入文本的韵律变化特征;然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长,根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征;根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成,能够将在音节粒度上捕获的韵律变化特征传递给底层音素,能够更好地捕获上下文特征,提高语音合成的自然度,提高语音合成的质量。

实施例二

图2为本发明实施例二提供的语音合成方法流程图;图3为本发明实施例二提供的时长预测模型的示意图;图4为本发明实施例二提供的声学参数模型的示意图。在上述实施例一的基础上,本实施例中根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成,包括:将输入文本的帧特征,输入声学参数模型,计算得到输入文本的帧序列中每个帧的声学参数;根据输入文本的帧序列中每个帧的声学参数,进行语音合成。根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征之前,还包括:对输入文本进行文本分析,确定输入文本的音素序列及音素特征;其中,输入文本的音素序列由输入文本的原始音素排列构成,输入文本的音素特征包括每个原始音素的音素特征。

如图2所示,该方法具体步骤如下:

步骤S201、对输入文本进行文本分析,确定输入文本的音素序列及音素特征;其中,输入文本的音素序列由输入文本的原始音素排列构成,输入文本的音素特征包括每个原始音素的音素特征。

本实施例中,通过对用户输入的输入文本进行文本分析,可以得到输入文本的音素序列和音素特征。其中,音素序列是由输入文本的原始音素,按照在输入文本中的先后顺序排列成的序列;输入文本的音素特征包括输入文本中每个原始音素的音素特征。

另外,对输入文本进行文本分析获取输入文本的音素序列及音素特征,具体采用现有技术中任意一种类似的文本分析方法实现,本实施例此处不再赘述。

示例性的,音素的音素特征可以包括:在字典中的位置,声调信息,韵律特征等等。

步骤S202、根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征。

其中,每个音节单元包括第一音素和第二音素,第二音素为输入文本的原始音素。

本实施例中,根据输入文本的音素序列和音素特征,结合输入文本的自然音节的划分,生成输入文本的音节单元,以及每个音节单元的音节特征。

其中,音节单元包括2个音素,分别记为第一音素和第二音素,音节单元中至少一个音素是输入文本的原始音素。音节单元的音节特征的维度是音素特征维度的2倍,一个音节单元的音节特征包括构成该音节单元的第一音素的音素特征和第二音素的音素特征。例如,音节单元的音节特征可以由第一音素的音素特征和第二音素的音素特征拼接构成。

具体的,该步骤具体可以采用如下方式实现:

对输入文本的每个自然音节进行如下处理:

确定自然音节包含的原始音素的数量,记为第一数量;若第一数量等于2,则将自然音节作为一个音节单元。若第一数量不等于2,则根据自然音节中的每个原始音素,生成一个对应的音节单元,该音节单元中的第一音素为预设音素、第二音素为对应的原始音素,预设音素的音素特征每个维度均为0;每个音节单元的音节特征包括构成该音节单元的第一音素和第二音素的音素特征。

可选的,对于中文的输入文本来说,音节单元中第一音素为声母音素,第二音素为韵母音素,且第一音素在第二音素之前。如果是零声母音节,则第一音素为预设音素,第二音素为韵母音素。

可选的,对于外文的输入文本来说,每个音节单元均参照零声母音节处理,第一音素为预设音素,第二音素为原始音素,且第一音素在第二音素之前。

步骤S203、将音节单元的音节特征,输入时长预测模型,计算得到音节单元的总时长,以及音节单元中第一音素和第二音素的预测时长。

其中,时长预测模型为预先训练好的神经网络模型。如图3所示,时长预测模型的输入为输入文本的所有音节单元的音节特征,输出为输入文本的每个音节单元的总时长、第一音素的预测时长和第二音素的预测时长。

示例性地,时长预测模型的输入为:输入文本的所有音节单元的音节特征拼接构成的特征序列;时长预测模型的输出为:每个音节单元的总时长、第一音素的预测时长和第二音素的预测时长拼接而成的时长序列。

本实施例中,在确定输入文本的音节单元的音节特征之后,将输入文本的所有音节单元的音节特征,输入时长预测模型,可以计算得到输入文本中每个音节单元的总时长,以及每个音节单元中第一音素和第二音素的预测时长。

步骤S204、根据音节单元的时长,以及音节单元的总时长,以及音节单元中第一音素和第二音素的预测时长,确定输入文本的原始音素的时长。

每个音节单元包括第一音素和第二音素,其中至少一个是输入文本的原始音素。

本实施例中,该步骤具体可以采用如下方式实现:

若音节单元的第一音素是预设音素,则确定音节单元的第二音素的时长等于总时长,得到音节单元中原始音素的时长。若音节单元的第一音素不是预设音素,则将根据第一音素和第二音素的预测时长,计算第一音素和第二音素的时长,第一音素和第二音素的时长之和等于总时长,并且第一音素的时长和第二音素的时长所成的比例、与第一音素的预测时长和第二音素的预测时长所成的比例一致。

步骤S205、根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征。

在确定输入文本的原始音素的时长之后,可以将每个原始音素扩充为一个帧序列单元,该帧序列单元包含的帧数与原始音素的时长一致,其中每个帧均为该原始音素。

本实施例中,该步骤具体可以采用如下方式实现:

将每个原始音素扩充成由第一数量的原始音素排列成的帧序列单元,其中每个原始音素作为帧序列单元的一个帧,第一数量为原始音素的时长;帧序列单元中每个帧的帧特征包括:对应原始音素的音素特征、当前帧在帧序列单元中的位置索引、当前帧在对应音节单元中的位置索引;输入文本的音素序列中,各个原始音素的帧序列单元排列构成输入文本的帧序列;输入文本的帧特征包括输入文本中每个帧的帧特征。

具体的,将原始音素扩展为帧序列单元的同时,也将原始音素对应的音节单元进行了扩充。音节单元扩充之后成为了两个帧序列单元构成的音节帧序列,包括该音节单元的第一音素对应的帧序列单元和第二音素对应的帧序列单元。

可选的,如果音节单元的第一音素为预设音素,那么可以认为第一音素对应的帧序列单元包括一帧数据。

可选的,还可以对音节单元中的第一音素,参照与本实施例中对原始音素进行扩充的方法,根据第一音素的预测时长,将第一音素扩充为一个帧序列单元,得到第一音素对应的帧序列单元。

进一步的,当前帧在对应音节单元中的位置索引,是指当前帧在其对应的音节单元的音节帧序列中的位置索引。

进一步的,输入文本的帧序列由输入文本的原始音素对应的帧序列单元排列构成。

输入文本的帧特征包括输入文本的帧序列中每个帧的帧特征;也就是,输入文本的帧特征包括输入文本的原始音素对应的帧序列单元中每个帧的帧特征。

步骤S206、将输入文本的帧特征,输入声学参数模型,计算得到输入文本的帧序列中每个帧的声学参数。

其中,声学参数至少包括:谱参数、能量参数、基频参数、和非周期参数。

本实施例中,声学参数模型为预先训练好的神经网络模型。如图4所示,声学参数模型的输入为输入文本帧序列中每个帧的帧特征,输出为输入文本的帧序列中每个帧的声学参数。

步骤S207、根据输入文本的帧序列中每个帧的声学参数,进行语音合成。

在得到输入文本的帧序列中每个帧的声学参数之后,根据输入文本的帧序列中每个帧的声学参数,进行语音合成。

本实施例中,根据输入文本的帧的声学参数进行语音合成,可以采用现有技术中根据输入文本的音素的声学参数进行语音合成的方法类似,本实施例此处不再赘述。

本发明实施例通过根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征,通过获取音节单元的特征,能够在音节粒度上更好地捕获输入文本的韵律变化特征;然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长,根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征;根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成,能够将在音节粒度上捕获的韵律变化特征传递给底层音素,能够更好地捕获上下文特征,提高语音合成的自然度,提高语音合成的质量。

实施例三

图5为本发明实施例三提供的语音合成装置的结构示意图。本发明实施例提供的语音合成装置可以执行语音合成方法实施例提供的处理流程。如图5所示,该语音合成装置30包括:音节生成模块301,时长预测模块302,音素时长确定模块303,帧特征生成模块304和声学参数处理模块305。

具体地,音节生成模块301用于根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征,每个音节单元包括第一音素和第二音素,第二音素为输入文本的原始音素。

时长预测模块302用于将音节单元的音节特征,输入时长预测模型,计算得到音节单元的总时长,以及音节单元中第一音素和第二音素的预测时长。

音素时长确定模块303用于根据音节单元的时长,以及音节单元的总时长,以及音节单元中第一音素和第二音素的预测时长,确定输入文本的原始音素的时长。

帧特征生成模块304用于根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征。

声学参数处理模块305用于根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成。

本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例,具体功能此处不再赘述。

本发明实施例通过根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征,通过获取音节单元的特征,能够在音节粒度上更好地捕获输入文本的韵律变化特征;然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长,根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征;根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成,能够将在音节粒度上捕获的韵律变化特征传递给底层音素,能够更好地捕获上下文特征,提高语音合成的自然度,提高语音合成的质量。

实施例四

在上述实施例三的基础上,本实施例中,音节生成模块还用于:

对输入文本的每个自然音节进行如下处理:

确定自然音节包含的原始音素的数量,记为第一数量;若第一数量等于2,则将自然音节作为一个音节单元;若第一数量不等于2,则根据自然音节中的每个原始音素,生成一个对应的音节单元,该音节单元中的第一音素为预设音素、第二音素为对应的原始音素,预设音素的音素特征每个维度均为0;每个音节单元的音节特征包括构成该音节单元的第一音素和第二音素的音素特征。

可选的,音节单元中第一音素为声母音素,第二音素为韵母音素,且第一音素在第二音素之前。

可选的,音素时长确定模块还用于:

若音节单元的第一音素是预设音素,则确定音节单元的第二音素的时长等于总时长,得到音节单元中原始音素的时长;若音节单元的第一音素不是预设音素,则将根据第一音素和第二音素的预测时长,计算第一音素和第二音素的时长,第一音素和第二音素的时长之和等于总时长,并且第一音素的时长和第二音素的时长所成的比例、与第一音素的预测时长和第二音素的预测时长所成的比例一致。

可选的,帧特征生成模块还用于:

将每个原始音素扩充成由第一数量的原始音素排列成的帧序列单元,其中每个原始音素作为帧序列单元的一个帧,第一数量为原始音素的时长;帧序列单元中每个帧的帧特征包括:对应原始音素的音素特征、当前帧在帧序列单元中的位置索引、当前帧在对应音节单元中的位置索引;输入文本的音素序列中,各个原始音素的帧序列单元排列构成输入文本的帧序列;输入文本的帧特征包括输入文本中每个帧的帧特征。

可选的,声学参数处理模块还用于:

将输入文本的帧特征,输入声学参数模型,计算得到输入文本的帧序列中每个帧的声学参数;根据输入文本的帧序列中每个帧的声学参数,进行语音合成。

可选的,声学参数至少包括:谱参数、能量参数、基频参数、和非周期参数。

可选的,音节生成模块还用于:

对输入文本进行文本分析,确定输入文本的音素序列及音素特征;其中,输入文本的音素序列由输入文本的原始音素排列构成,输入文本的音素特征包括每个原始音素的音素特征。

本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例,具体功能此处不再赘述。

本发明实施例通过根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征,通过获取音节单元的特征,能够在音节粒度上更好地捕获输入文本的韵律变化特征;然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长,根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征;根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成,能够将在音节粒度上捕获的韵律变化特征传递给底层音素,能够更好地捕获上下文特征,提高语音合成的自然度,提高语音合成的质量。

实施例五

图6为本发明实施例五提供的语音合成设备的结构示意图。如图6所示,该语音合成设备70包括:处理器701,存储器702,以及存储在存储器702上并可在处理器701上运行的计算机程序。

其中,处理器701运行计算机程序时实现上述任一方法实施例提供的语音合成方法。

本发明实施例通过根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征,通过获取音节单元的特征,能够在音节粒度上更好地捕获输入文本的韵律变化特征;然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长,根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征;根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成,能够将在音节粒度上捕获的韵律变化特征传递给底层音素,能够更好地捕获上下文特征,提高语音合成的自然度,提高语音合成的质量。

另外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法实施例提供的语音合成方法。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

技术特征:

1.一种语音合成方法,其特征在于,包括:

根据输入文本的音素序列和音素特征,确定所述输入文本的音节单元,以及所述音节单元的音节特征,每个所述音节单元包括第一音素和第二音素,所述第二音素为所述输入文本的原始音素;

将所述音节单元的音节特征,输入时长预测模型,计算得到音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长;

根据所述音节单元的时长,以及所述音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长,确定所述输入文本的原始音素的时长;

根据所述输入文本的原始音素的时长,将所述输入文本的原始音素扩充为帧序列单元,确定所述输入文本的帧序列和帧特征;

根据所述输入文本的帧特征,确定所述输入文本的声学参数,并进行语音合成。

2.根据权利要求1所述的方法,其特征在于,所述根据输入文本的音素序列和音素特征,确定所述输入文本的音节单元,以及所述音节单元的音节特征,包括:

对所述输入文本的每个自然音节进行如下处理:

确定所述自然音节包含的原始音素的数量,记为第一数量;

若所述第一数量等于2,则将所述自然音节作为一个音节单元;

若所述第一数量不等于2,则根据所述自然音节中的每个原始音素,生成一个对应的音节单元,该音节单元中的第一音素为预设音素、第二音素为对应的原始音素,所述预设音素的音素特征每个维度均为0;

每个音节单元的音节特征包括构成该音节单元的第一音素和第二音素的音素特征。

3.根据权利要求2所述的方法,其特征在于,所述音节单元中第一音素为声母音素,第二音素为韵母音素,且所述第一音素在所述第二音素之前。

4.根据权利要求2所述的方法,其特征在于,所述根据所述音节单元的时长,以及所述音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长,确定所述输入文本的原始音素的时长,包括:

若所述音节单元的第一音素是所述预设音素,则确定所述音节单元的第二音素的时长等于所述总时长,得到所述音节单元中原始音素的时长;

若所述音节单元的第一音素不是所述预设音素,则将根据所述第一音素和第二音素的预测时长,计算所述第一音素和第二音素的时长,所述第一音素和第二音素的时长之和等于所述总时长,并且所述第一音素的时长和所述第二音素的时长所成的比例、与所述第一音素的预测时长和所述第二音素的预测时长所成的比例一致。

5.根据权利要求2所述的方法,其特征在于,所述根据所述输入文本的原始音素的时长,将所述输入文本的原始音素扩充为帧序列单元,确定所述输入文本的帧序列和帧特征,包括:

将每个所述原始音素扩充成由第一数量的所述原始音素排列成的帧序列单元,其中每个所述原始音素作为所述帧序列单元的一个帧,所述第一数量为所述原始音素的时长;

所述帧序列单元中每个帧的帧特征包括:对应原始音素的音素特征、当前帧在帧序列单元中的位置索引、当前帧在对应音节单元中的位置索引;

所述输入文本的音素序列中,各个原始音素的帧序列单元排列构成所述输入文本的帧序列;

所述输入文本的帧特征包括所述输入文本中每个帧的帧特征。

6.根据权利要求1所述的方法,其特征在于,所述根据所述输入文本的帧特征,确定所述输入文本的声学参数,并进行语音合成,包括:

将所述输入文本的帧特征,输入声学参数模型,计算得到所述输入文本的帧序列中每个帧的声学参数;

根据所述输入文本的帧序列中每个帧的声学参数,进行语音合成。

7.根据权利要求1所述的方法,其特征在于,所述根据输入文本的音素序列和音素特征,确定所述输入文本的音节单元,以及所述音节单元的音节特征之前,还包括:

对输入文本进行文本分析,确定所述输入文本的音素序列及音素特征;

其中,所述输入文本的音素序列由所述输入文本的原始音素排列构成,所述输入文本的音素特征包括每个所述原始音素的音素特征。

8.根据权利要求1或6所述的方法,其特征在于,所述声学参数至少包括:谱参数、能量参数、基频参数、和非周期参数。

9.一种语音合成装置,其特征在于,包括:

音节生成模块,用于根据输入文本的音素序列和音素特征,确定所述输入文本的音节单元,以及所述音节单元的音节特征,每个所述音节单元包括第一音素和第二音素,所述第二音素为所述输入文本的原始音素;

时长预测模块,用于将所述音节单元的音节特征,输入时长预测模型,计算得到音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长;

音素时长确定模块,用于根据所述音节单元的时长,以及所述音节单元的总时长,以及所述音节单元中第一音素和第二音素的预测时长,确定所述输入文本的原始音素的时长;

帧特征生成模块,用于根据所述输入文本的原始音素的时长,将所述输入文本的原始音素扩充为帧序列单元,确定所述输入文本的帧序列和帧特征;

声学参数处理模块,用于根据所述输入文本的帧特征,确定所述输入文本的声学参数,并进行语音合成。

10.一种语音合成设备,其特征在于,包括:

处理器,存储器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序;

其中,所述处理器运行所述计算机程序时实现如权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法。

技术总结

本发明提供一种语音合成方法、装置、设备及计算机可读存储介质。本发明的方法,通过根据输入文本的音素序列和音素特征,确定输入文本的音节单元,以及音节单元的音节特征,通过获取音节单元的特征,能够在音节粒度上更好地捕获输入文本的韵律变化特征;然后根据音节单元的音节特征可以进一步确定输入文本的原始音素的时长,根据输入文本的原始音素的时长,将输入文本的原始音素扩充为帧序列单元,确定输入文本的帧序列和帧特征;根据输入文本的帧特征,确定输入文本的声学参数,并进行语音合成,能够将在音节粒度上捕获的韵律变化特征传递给底层音素,能够更好地捕获上下文特征,提高语音合成的自然度,提高语音合成的质量。

技术研发人员:王振宇;李昊;侯建康;李飞亚

受保护的技术使用者:百度在线网络技术(北京)有限公司

技术研发日:.06.27

技术公布日:.09.20

如果觉得《语音合成方法 装置 设备及计算机可读存储介质与流程》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。