Armox Academy 📚

AI模型参考音频模型

音频模型

Armox 中的音频模型可以根据文本描述或参考输入生成音乐、语音与音效。

概览

音频模型可以：

音乐生成 — 根据描述创作原创音乐
文本转语音 — 从文本生成自然语音
音效生成 — 生成环境音与音效
声音克隆 — 以特定声音生成语音
音频续写 — 延展已有音频

可用的音频模型

模型	提供商	成本	时长	最适合
MusicGen	Meta	100 credits	8-30s	音乐生成
Ace Step	Various	100 credits	60-300s	长音频音乐
Dia TTS	Nari Labs	50 credits	Variable	文本转语音
Kokoro TTS	Kokoro	50 credits	Variable	快速 TTS
Chatterbox	Various	50 credits	Variable	声音克隆

连接颜色

在 Armox Canvas 中，音频连接使用橙色的句柄与连线：

输入句柄：节点左侧的红色圆点
输出句柄：节点右侧的红色圆点
连接边：连接节点的红色连线

常见设置

Duration

控制生成音频的长度。

Sample Rate

44.1kHz — CD 音质
48kHz — 专业音频

Format

MP3 — 有损压缩，文件更小
WAV — 无损未压缩，质量更高

如何选择合适的模型

用于音乐

MusicGen（100 credits）— 短音乐片段
Ace Step（100 credits）— 长篇音乐

用于语音

Dia TTS（50 credits）— 自然对话
Kokoro TTS（50 credits）— 快速生成
Chatterbox（50 credits）— 声音克隆

最佳实践

明确风格 — “jazz”、“electronic”、“orchestral”
描述情绪 — “upbeat”、“melancholic”、“energetic”
写出乐器 — “piano”、“guitar”、“synthesizer”
指定速度 — “slow”、“moderate”、“fast”
语音请用自然表达 — 像你说话一样去写

下一步

查看各个模型的单独文档，了解详细设置与用例。

准备好转变您的创意工作流了吗？

无需信用卡1000免费积分