零样本声音克隆

使用 CosyVoice 进行 AI 声音克隆

仅需几秒音频即可克隆你拥有或已获授权的声音。CosyVoice 是开源的零样本声音克隆模型,能够还原音色、口音与韵律 — 并用多种语言朗读你的文本。

输入文本

0/120

每次生成限 120 字符。 3 次试用 · 等待 20 秒 · Pro 免等待

选择声音

晓悦 · 普通话
普通话
晓悦 · 普通话

温暖自然的女声,适合配音、有声书与客服播报。

晨煦 · 普通话
普通话
晨煦 · 普通话

沉稳清晰的男声,适合新闻播报、讲解与教程旁白。

阿乐 · 粤语
粤语
阿乐 · 粤语

地道粤语男声,适合粤语配音、短视频与影视解说。

幺妹 · 四川话
四川话
幺妹 · 四川话

亲切的四川话女声,适合方言短视频与趣味配音。

阿宝 · 上海话
上海话
阿宝 · 上海话

软糯的上海话嗓音,适合本地生活与情感叙事内容。

津味 · 天津话
天津话
津味 · 天津话

诙谐的天津话男声,适合相声风格与喜剧配音。

为什么用 CosyVoice 克隆声音

零样本克隆

仅凭一小段参考音频即可还原目标声音,无需微调或数小时的训练数据。

开源且免费

CosyVoice 基于 Apache-2.0 许可发布。可本地运行、自行部署,或免费在线试用 — 无厂商锁定。

跨语言声音

用一种语言克隆声音,再用另一种语言朗读,在中文、英语、日语、韩语等之间保持同一身份。

自然韵律

有监督的语音 token 捕捉节奏、重音与情感,让克隆的声音听起来像真人,而非机器。

你可以用它做什么

有声书与旁白

用统一、可辨识的声音为长篇内容配音。

AI 智能体与助手

为虚拟智能体赋予品牌化的实时声音,延迟低于一秒。

视频配音

将视频配音成新语言,同时保留原说话人的身份。

无障碍辅助

为辅助阅读与沟通工具还原或定制声音。

声音克隆常见问题

什么是零样本声音克隆?

零样本声音克隆只需一小段参考样本即可用目标声音生成语音 — 无需针对每个说话人训练。CosyVoice 实时提取声音身份,并应用到你提供的任意文本。

CosyVoice 声音克隆是免费且开源的吗?

是的。CosyVoice 基于 Apache-2.0 许可发布,可免费使用、修改并自行部署。上方演练场的在线声音克隆功能即将推出。

克隆一个声音需要多少音频?

通常几秒钟干净的参考音频就足以让 CosyVoice 捕捉音色与说话风格。更长、更高质量的样本能提升相似度。

可以用一种语言克隆声音再用另一种语言朗读吗?

可以。CosyVoice 支持跨语言克隆,用英语录制的声音可以朗读中文、日语、韩语等支持的语言,并保持其身份。

声音克隆是否合乎道德与法律?

只克隆你拥有或已获明确授权的声音。未经同意克隆他人声音可能侵犯隐私与肖像权。请负责任地使用 CosyVoice。