智声悦合科技
飞书用户4543
智声云配DubbingX知识库
分享
音色克隆教程
输入“/”快速插入内容
音色克隆教程
创建模型
模型名称
可以展现音色特点,如“tvb温柔女声”、“可爱萝莉音”、“纪录片广告旁白男声”。
模型类型
模型类型根据使用场景分为两个类别:文本转语音和语音转语音(歌声转歌声)
两个模型互不通用,选择需要的使用场景分别去克隆。
文本转语音模型种类
单语态模型:只有一种情绪
多语态模型:多种情绪,需要按下载的标准台本录制445句。(建议专业人士选择该类型克隆)
头像
仅支持jpg、png格式图片,建议选择正方形图片,尽可能使用与克隆音色属性接近的内容
性别和年龄
选择克隆音色的性别和年龄
样音试听
非必填选项,用于自己使用的时候试听,避免克隆音色太多自己混淆。
训练前准备
文本转语音语料要求
吐字清晰纯人声;内容可以自然说话、读一段故事。
语音转语音(歌声转歌声)
语料要求
吐字清晰纯人声;内容可以包含自然说话、读一段故事、清唱一首歌(不能有背景音乐)。
语料音频规格
44100hz或48000hz;单声道;MP3或者WAV(16bit或24bit)格式,最好是WAV;单条建议10秒左右;50M以内。
语料音频处理
·统一降噪,部分噪音无法通过降噪处理干净的,可以选取以后用静音;
·减去头尾空白;控制好音频中的间隔,太过紧密的需要插入静音,非自然停顿的空白间隔需要剪短,控制在0.5秒左右;
·音频中不能用文字表达的声音可以剪去,比如比较频繁的吸气声、吞咽声等。
·所有语音加在一起的总时长一定要大于1分钟,建议5分钟以上。
·音频录制需要在安静环境中进行,录制的内容为纯人声音频(手机录制可用有线耳机,避免在厕所等容易产生回声的环境录制)。
(tips:建议电脑端选用电容麦,使用智声云配产品中的
【
音频编辑
】功能
直接录制,编辑处理后保存)
降噪和空白处理如下图
剪切和静音的使用如下图
(tips:
【
文本转语音
】、【
语音转语音(歌声转歌声)
】音频规格一致
)
开始训练
文本转语音单语态训练
左边框
导入训练模型音频文件(目的让ai学习声纹音色)。
数量无上限,仅单次上传限制30个文件,可以分批上传(音频质量决定模型质量,语料越干净、吐字越清晰效果越好,其次才是音频数量)。