音频模型
Armox 中的音频模型可以根据文本描述或参考输入生成音乐、语音与音效。
概览
音频模型可以:
- 音乐生成 — 根据描述创作原创音乐
- 文本转语音 — 从文本生成自然语音
- 音效生成 — 生成环境音与音效
- 声音克隆 — 以特定声音生成语音
- 音频续写 — 延展已有音频
可用的音频模型
| 模型 | 提供商 | 成本 | 时长 | 最适合 |
|---|---|---|---|---|
| MusicGen | Meta | 100 credits | 8-30s | 音乐生成 |
| Ace Step | Various | 100 credits | 60-300s | 长音频音乐 |
| Dia TTS | Nari Labs | 50 credits | Variable | 文本转语音 |
| Kokoro TTS | Kokoro | 50 credits | Variable | 快速 TTS |
| Chatterbox | Various | 50 credits | Variable | 声音克隆 |
连接颜色
在 Armox Canvas 中,音频连接使用 橙色 的句柄与连线:
- 输入句柄:节点左侧的红色圆点
- 输出句柄:节点右侧的红色圆点
- 连接边:连接节点的红色连线
常见设置
Duration
控制生成音频的长度。
Sample Rate
- 44.1kHz — CD 音质
- 48kHz — 专业音频
Format
- MP3 — 有损压缩,文件更小
- WAV — 无损未压缩,质量更高
如何选择合适的模型
用于音乐
- MusicGen(100 credits)— 短音乐片段
- Ace Step(100 credits)— 长篇音乐
用于语音
- Dia TTS(50 credits)— 自然对话
- Kokoro TTS(50 credits)— 快速生成
- Chatterbox(50 credits)— 声音克隆
最佳实践
- 明确风格 — “jazz”、“electronic”、“orchestral”
- 描述情绪 — “upbeat”、“melancholic”、“energetic”
- 写出乐器 — “piano”、“guitar”、“synthesizer”
- 指定速度 — “slow”、“moderate”、“fast”
- 语音请用自然表达 — 像你说话一样去写
下一步
查看各个模型的单独文档,了解详细设置与用例。