Modele audio
Modele audio w Armox generują muzykę, mowę i efekty dźwiękowe na podstawie opisów tekstowych lub referencyjnych inputs.
Overview
Modele audio potrafią:
- Music generation — tworzyć muzykę z opisów
- Text-to-speech — generować naturalny głos z tekstu
- Sound effects — tworzyć ambienty i efekty
- Voice cloning — generować mowę w konkretnych głosach
- Audio continuation — przedłużać istniejące audio
Dostępne modele audio
| Model | Provider | Koszt | Duration | Najlepszy do |
|---|---|---|---|---|
| MusicGen | Meta | 100 credits | 8-30s | generowanie muzyki |
| Ace Step | Various | 100 credits | 60-300s | long-form music |
| Dia TTS | Nari Labs | 50 credits | Variable | text-to-speech |
| Kokoro TTS | Kokoro | 50 credits | Variable | szybkie TTS |
| Chatterbox | Various | 50 credits | Variable | voice cloning |
Kolory połączeń
W Armox Canvas połączenia audio używają orange uchwytów i krawędzi:
- Input Handle: Red circle on the left side of nodes
- Output Handle: Red circle on the right side of nodes
- Connection Edge: Red line connecting nodes
Typowe ustawienia
Duration
Kontroluje długość generowanego audio.
Sample rate
- 44.1kHz — CD quality
- 48kHz — profesjonalne audio
Format
- MP3 — skompresowany, mniejsze pliki
- WAV — nieskompresowany, wyższa jakość
Jak wybrać właściwy model
Dla muzyki
- MusicGen (100 credits) — krótkie klipy
- Ace Step (100 credits) — long-form music
Dla mowy
- Dia TTS (50 credits) — natural dialogue
- Kokoro TTS (50 credits) — szybka generacja
- Chatterbox (50 credits) — voice cloning
Best practices
- Bądź konkretny/a o genre — „jazz”, „electronic”, „orchestral”
- Opisuj mood — „upbeat”, „melancholic”, „energetic”
- Dodaj instruments — „piano”, „guitar”, „synthesizer”
- Określ tempo — „slow”, „moderate”, „fast”
- Dla speech: pisz naturalnie — jak mówisz na co dzień
Następne kroki
Zobacz dokumentację konkretnych modeli (ustawienia i use cases).