Audio Models
Audio Models in Armox generieren Musik, Speech und Soundeffekte aus Textbeschreibungen oder Reference Inputs.
Overview
Audio Models können:
- Music generation — Originalmusik aus Beschreibungen erstellen
- Text-to-speech — Natürliche Stimmen aus Text generieren
- Sound effects — Ambient sounds und Effects erzeugen
- Voice cloning — Speech in spezifischen Stimmen generieren
- Audio continuation — Bestehendes Audio verlängern
Available Audio Models
| Model | Provider | Cost | Duration | Best For |
|---|---|---|---|---|
| MusicGen | Meta | 100 credits | 8-30s | Music generation |
| Ace Step | Various | 100 credits | 60-300s | Long-form music |
| Dia TTS | Nari Labs | 50 credits | Variable | Text-to-speech |
| Kokoro TTS | Kokoro | 50 credits | Variable | Fast TTS |
| Chatterbox | Various | 50 credits | Variable | Voice cloning |
Connection Colors
Im Armox Canvas verwenden Audio-Connections orange Handles und Edges:
- Input Handle: Red circle auf der linken Seite von Nodes
- Output Handle: Red circle auf der rechten Seite von Nodes
- Connection Edge: Red line, die Nodes verbindet
Common Settings
Duration
Steuert die Länge des generierten Audios.
Sample Rate
- 44.1kHz — CD quality
- 48kHz — Professional audio
Format
- MP3 — Compressed, kleinere Dateien
- WAV — Uncompressed, höhere Qualität
Choosing the Right Model
For Music
- MusicGen (100 credits) — Kurze Musikclips
- Ace Step (100 credits) — Long-form music
For Speech
- Dia TTS (50 credits) — Natürliches Dialogue
- Kokoro TTS (50 credits) — Fast generation
- Chatterbox (50 credits) — Voice cloning
Best Practices
- Genre konkret angeben — "jazz", "electronic", "orchestral"
- Mood beschreiben — "upbeat", "melancholic", "energetic"
- Instruments nennen — "piano", "guitar", "synthesizer"
- Tempo angeben — "slow", "moderate", "fast"
- Für Speech: natürlicher Text — So schreiben, wie Sie sprechen würden
Next Steps
Explore individual model documentation for detailed settings and use cases.