Armox
    Armox Academy 📚
    AI模型参考音频模型

    音频模型

    Armox 中的音频模型可以根据文本描述或参考输入生成音乐、语音与音效。

    概览

    音频模型可以:

    • 音乐生成 — 根据描述创作原创音乐
    • 文本转语音 — 从文本生成自然语音
    • 音效生成 — 生成环境音与音效
    • 声音克隆 — 以特定声音生成语音
    • 音频续写 — 延展已有音频

    可用的音频模型

    模型提供商成本时长最适合
    MusicGenMeta100 credits8-30s音乐生成
    Ace StepVarious100 credits60-300s长音频音乐
    Dia TTSNari Labs50 creditsVariable文本转语音
    Kokoro TTSKokoro50 creditsVariable快速 TTS
    ChatterboxVarious50 creditsVariable声音克隆

    连接颜色

    在 Armox Canvas 中,音频连接使用 橙色 的句柄与连线:

    • 输入句柄:节点左侧的红色圆点
    • 输出句柄:节点右侧的红色圆点
    • 连接边:连接节点的红色连线

    常见设置

    Duration

    控制生成音频的长度。

    Sample Rate

    • 44.1kHz — CD 音质
    • 48kHz — 专业音频

    Format

    • MP3 — 有损压缩,文件更小
    • WAV — 无损未压缩,质量更高

    如何选择合适的模型

    用于音乐

    • MusicGen(100 credits)— 短音乐片段
    • Ace Step(100 credits)— 长篇音乐

    用于语音

    • Dia TTS(50 credits)— 自然对话
    • Kokoro TTS(50 credits)— 快速生成
    • Chatterbox(50 credits)— 声音克隆

    最佳实践

    1. 明确风格 — “jazz”、“electronic”、“orchestral”
    2. 描述情绪 — “upbeat”、“melancholic”、“energetic”
    3. 写出乐器 — “piano”、“guitar”、“synthesizer”
    4. 指定速度 — “slow”、“moderate”、“fast”
    5. 语音请用自然表达 — 像你说话一样去写

    下一步

    查看各个模型的单独文档,了解详细设置与用例。