Génère de l'audio à partir de texte, avec ou sans prefix (audio de référence). Paramètres avancés: num_steps, CFG, température, max_seq_len, seed.