大家应该都知道声音克隆技术,秒内通俗的克隆恐来说就是借助深度学习算法,可以完全模拟某个人的音并源工声音,而且由机器合成的生成思极语音连情绪都能够完美表达出来,基本可以以假乱真,任何只要不见面,内容你根本就察觉不出来向你发出声音的个开知识一个机器。 语音克隆最大的具细创新之一是减少创建语音所需的原始数据量。过去,高防服务器秒内该系统需要数十甚至数百小时的克隆恐音频。但是音并源工,今天猿妹要和大家分享的生成思极这个工具5秒钟就可以克隆成功,这个工具名叫——MockingBird。任何 MockingBird已经登上Github热榜,内容收获3.5K的个开Star,累计分支 303(Github地址:https://github.com/babysor/MockingBird) MockingBird的源码库安装要求如下: 接着,你需要使用数据集训练合成器: 当你在训练文件夹 synthesizer/saved_models/ 中看到注意线显示和损失满足您的需要时,请转到下一步。 使用预先训练好的合成器,如果没有设备或者不想慢慢调试,可以使用网友贡献的模型。 然后你可以尝试使用工具箱:python demo_toolbox.py -d<datasets_root>MockingBird具有如下特性:
支持普通话并使用多种中文数据集进行测试 适用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,GPU Tesla T4 和 GTX 2060 支持 Windows + Linux 仅使用新训练的合成器(synthesizer)就有良好效果,复用预训练的编码器/声码器 MockingBird如何使用
训练声码器
预处理数据: python vocoder_preprocess.py 训练声码器: python vocoder_train.py mandarin 启动工具箱