音色克隆教程

创建模型

模型名称

可以展现音色特点，如“tvb温柔女声”、“可爱萝莉音”、“纪录片广告旁白男声”。​

模型类型

模型类型根据使用场景分为两个类别：文本转语音和语音转语音（歌声转歌声）​

两个模型互不通用，选择需要的使用场景分别去克隆。

文本转语音模型种类

单语态模型：只有一种情绪

多语态模型：多种情绪，需要按下载的标准台本录制445句。（建议专业人士选择该类型克隆）​

头像

仅支持jpg、png格式图片，建议选择正方形图片，尽可能使用与克隆音色属性接近的内容​

性别和年龄

选择克隆音色的性别和年龄

样音试听

非必填选项，用于自己使用的时候试听，避免克隆音色太多自己混淆。​

训练前准备

文本转语音语料要求

吐字清晰纯人声；内容可以自然说话、读一段故事。

语音转语音（歌声转歌声)语料要求

吐字清晰纯人声；内容可以包含自然说话、读一段故事、清唱一首歌（不能有背景音乐）。​

语料音频规格

44100hz或48000hz；单声道；MP3或者WAV(16bit或24bit)格式，最好是WAV；单条建议10秒左右；50M以内。​

语料音频处理

·统一降噪，部分噪音无法通过降噪处理干净的，可以选取以后用静音；​

·减去头尾空白；控制好音频中的间隔，太过紧密的需要插入静音，非自然停顿的空白间隔需要剪短，控制在0.5秒左右；​

·音频中不能用文字表达的声音可以剪去，比如比较频繁的吸气声、吞咽声等。​

·所有语音加在一起的总时长一定要大于1分钟，建议5分钟以上。​

·音频录制需要在安静环境中进行，录制的内容为纯人声音频（手机录制可用有线耳机，避免在厕所等容易产生回声的环境录制）。​

(tips：建议电脑端选用电容麦，使用智声云配产品中的【音频编辑】功能直接录制，编辑处理后保存)​

降噪和空白处理如下图

剪切和静音的使用如下图

（tips：【文本转语音】、【语音转语音（歌声转歌声）】音频规格一致）​

开始训练

文本转语音单语态训练

左边框

导入训练模型音频文件（目的让ai学习声纹音色）。

数量无上限，仅单次上传限制30个文件，可以分批上传（音频质量决定模型质量，语料越干净、吐字越清晰效果越好，其次才是音频数量）。​

音色克隆教程​