L’utilisation de ces voix sur des textes comportant des balises SSML pour varier la prosodie aboutira sur une erreur et un énoncé vide.
On doit partir de textes "plats", c’est à dire sans aucun balisage.
Voici quelques astuces pour contourner les limitations des voix Chirp HD de Google (qui n’acceptent pas le SSML) tout en rendant la synthèse vocale plus expressive et agréable :
1. Phrasé et ponctuation :
Les voix Chirp interprètent beaucoup à partir du texte brut. On peut influencer le rythme et l’intonation en jouant avec :
- Les virgules pour insérer de petites pauses :
Je vous explique, étape par étape, ce qui se passe. - Les points de suspension pour une pause plus longue ou un effet dramatique :
Et là… tout a changé. - La ponctuation forte pour moduler l’emphase :
C’est absolument incroyable !
2. Simuler les balises break
On ne peut pas mettre <break time="500ms"/>
, mais il est possible de l’imiter avec des tirets longs ou des retours à la ligne :
On a réussi — vraiment réussi.
ou même :
Première étape :
Attendre.
Deuxième étape :
Espérer.
3. Astuce de tempo avec des mots d’attente
Rythmer avec des phrases de remplissage volontairement neutres ou “temps morts” :
Hmm… laissons ça mijoter un moment.
4. Emphase
On peut suggérer une emphase en :
- plaçant des mots seuls sur une ligne
- ajoutant des majuscules à certains mots
- ou répétant légèrement une idée
Et ça... c’est important. Vraiment important.
5. Tester dans la console Google
Il est recommandé d’essayer le texte dans la console Google Text-to-Speech pour ajuster la forme. Souvent, les nuances se jouent à la ponctuation près !