Armox Academy 📚

KI-Modelle ReferenzAudio-Modelle

Audio Models

Audio Models in Armox generieren Musik, Speech und Soundeffekte aus Textbeschreibungen oder Reference Inputs.

Overview

Audio Models können:

Music generation — Originalmusik aus Beschreibungen erstellen
Text-to-speech — Natürliche Stimmen aus Text generieren
Sound effects — Ambient sounds und Effects erzeugen
Voice cloning — Speech in spezifischen Stimmen generieren
Audio continuation — Bestehendes Audio verlängern

Available Audio Models

Model	Provider	Cost	Duration	Best For
MusicGen	Meta	100 credits	8-30s	Music generation
Ace Step	Various	100 credits	60-300s	Long-form music
Dia TTS	Nari Labs	50 credits	Variable	Text-to-speech
Kokoro TTS	Kokoro	50 credits	Variable	Fast TTS
Chatterbox	Various	50 credits	Variable	Voice cloning

Connection Colors

Im Armox Canvas verwenden Audio-Connections orange Handles und Edges:

Input Handle: Red circle auf der linken Seite von Nodes
Output Handle: Red circle auf der rechten Seite von Nodes
Connection Edge: Red line, die Nodes verbindet

Common Settings

Duration

Steuert die Länge des generierten Audios.

Sample Rate

44.1kHz — CD quality
48kHz — Professional audio

Format

MP3 — Compressed, kleinere Dateien
WAV — Uncompressed, höhere Qualität

Choosing the Right Model

For Music

MusicGen (100 credits) — Kurze Musikclips
Ace Step (100 credits) — Long-form music

For Speech

Dia TTS (50 credits) — Natürliches Dialogue
Kokoro TTS (50 credits) — Fast generation
Chatterbox (50 credits) — Voice cloning

Best Practices

Genre konkret angeben — "jazz", "electronic", "orchestral"
Mood beschreiben — "upbeat", "melancholic", "energetic"
Instruments nennen — "piano", "guitar", "synthesizer"
Tempo angeben — "slow", "moderate", "fast"
Für Speech: natürlicher Text — So schreiben, wie Sie sprechen würden

Next Steps

Explore individual model documentation for detailed settings and use cases.

Bereit, deinen kreativen Workflow zu transformieren?

Keine Kreditkarte erforderlich1000 kostenlose Credits