Modelos de áudio
Modelos de áudio na Armox geram música, fala e efeitos sonoros a partir de descrições em texto ou inputs de referência.
Visão geral
Modelos de áudio podem:
- Music generation — Criar música original a partir de descrições
- Text-to-speech — Gerar voz natural a partir de texto
- Sound effects — Criar sons ambientes e efeitos
- Voice cloning — Gerar fala em vozes específicas
- Audio continuation — Estender áudio existente
Modelos de áudio disponíveis
| Model | Provider | Cost | Duration | Best For |
|---|---|---|---|---|
| MusicGen | Meta | 100 credits | 8-30s | Music generation |
| Ace Step | Various | 100 credits | 60-300s | Long-form music |
| Dia TTS | Nari Labs | 50 credits | Variable | Text-to-speech |
| Kokoro TTS | Kokoro | 50 credits | Variable | Fast TTS |
| Chatterbox | Various | 50 credits | Variable | Voice cloning |
Cores de conexão
No Armox Canvas, conexões de áudio usam handles e edges laranjas:
- Input Handle: círculo vermelho no lado esquerdo dos nodes
- Output Handle: círculo vermelho no lado direito dos nodes
- Connection Edge: linha vermelha conectando nodes
Configurações comuns
Duration
Controla o tamanho do áudio gerado.
Sample Rate
- 44.1kHz — CD quality
- 48kHz — Professional audio
Format
- MP3 — Compressed, arquivos menores
- WAV — Uncompressed, maior qualidade
Escolhendo o modelo certo
Para música
- MusicGen (100 credits) — Clipes curtos
- Ace Step (100 credits) — Música longa
Para fala
- Dia TTS (50 credits) — Diálogo natural
- Kokoro TTS (50 credits) — Geração rápida
- Chatterbox (50 credits) — Voice cloning
Best practices
- Seja específico sobre gênero — "jazz", "electronic", "orchestral"
- Descreva mood — "upbeat", "melancholic", "energetic"
- Inclua instrumentos — "piano", "guitar", "synthesizer"
- Especifique tempo — "slow", "moderate", "fast"
- Para fala, use texto natural — Escreva como você falaria
Próximos passos
Explore a documentação individual de cada modelo para configurações e casos de uso.