🎨声音设计(Voice Design)← 当前模式
无需参考音频。在 Control Instruction 中描述目标音色特征(性别、年龄、语气、情绪、语速等),VoxCPM2 即可从零创造独一无二的声音。
🎛️可控克隆(Controllable Cloning)
上传参考音频,同时可选地使用 Control Instruction 来指定情绪、语速、风格等,在保留原始音色的基础上灵活控制说话风格。
🎙️极致克隆(Ultimate Cloning)
开启极致克隆模式并提供参考音频的文字内容(可自动识别)。模型将参考音频视为已说出的前文,以音频续写方式完整还原声音的每一个细节。注意:该模式将禁用 Control Instruction。
点击上传或拖拽音频文件
支持 WAV · MP3 · M4A · FLAC · OGG
生成结果将显示在这里
示例 — 点击快速填入
🗣️ 方言生成技巧
Target Text 中直接使用方言词汇和句式,Control Instruction 中描述方言特征。
✅ 正确(粤语表达):伙計,唔該一個A餐,凍奶茶少甜!
❌ 错误(普通话原文):伙计,麻烦来一个A餐,冻奶茶少甜!
不知道方言怎么写?可用 DeepSeek / 豆包等 AI 将普通话翻译为方言文本再粘贴。
© 2026 WisVid · 语音模型 VoxCPM2