中文慵懒女声 TTS 方案调研

目标:生成一句约4秒的中文语音通知 “主人,人家需要你的确认哦”,要求声音温柔、低沉、慵懒/撒娇。 环境:Fedora 43, Python 3.14, Intel Arc GPU(IPEX 不兼容),仅 CPU。

方案对比总结

方案CPU可用Py3.14语调控制CPU速度安装难度推荐度
edge-tts (SSML调参)YESYESpitch/rate/volume即时pip★★★★
Spark-TTS 0.5BYES3.12+gender/pitch/rate~2-5秒/句conda+模型★★★★
Qwen3-TTSYESYESvoice cloning~2秒/句pip★★★
ChatTTS (spk_smp)YESYESspeaker embedding5-10分钟pip★★
GPT-SoVITSYES3.9-3.11voice clone很慢conda★★
CosyVoiceYES3.8-3.10emotion tags很慢(10-50x)conda+复杂★★
Fish SpeechYES3.8-3.10voice clone+emotion较慢clone+pip★★
BarkYESYESpresets极慢pip

最佳实践路径

快速路径:edge-tts + SSML prosody 调参(XiaomoNeural 或 XiaohanNeural,降pitch+降rate+narrow contour) 高质量路径:Spark-TTS 0.5B 提供参考音频做 zero-shot voice clone