Balisage SSML : Améliorer l’énoncé

samedi 28 octobre 2023

La synthèse vocale, ou transformation automatique d’un texte en énoncé audio (Text to Speech, TtS), dans plusieurs langues, c’est une possibilité fantastique qu’offre O-DGuide. Cependant, même si la technique est mature, il faut parfois agrémenter la diction ou la modifier.

Cet article donne un aperçu des principales applications du langage de balisage de synthèse vocale (Speech Synthesis Markup Language, SSML).

Le balisage SSML peut être appliqué aux textes des séquences (mais pas aux titres).
Le mieux est de l’appliquer à la séquence en langue principale avant génération des séquences en langues secondaires.

Dans la grande majorité des cas, O-DGuide adaptera automatiquement les balises aux différents langages. Cependant, une vérification s’imposera.

Attention : les nouvelles voix Chirp-HD ne sont pas compatibles SSML. Utilisez en priorité les voix Neural2 et Standard.

Le Rythme

break
La balise break permet d’effectuer une pause dans l’énoncé.
Exemples :

<break time="250ms"/>

<break time="1s"/>

Attention : ne pas ajouter d’espace à l’intérieur de la balise. Mauvais : <break time="250 ms" />

prosody rate
La balise prosody rate permet d’accélérer ou de ralentir la vitesse d’énonciation. Elle prend en particulier les valeurs : "x-slow", "slow", "medium", "fast", "x-fast", or "default".
Exemple :

<prosody rate="slow">Il est possible de modifier la vitesse d'énonciation</prosody>

La voix et la tonalité

voice
La balise voice est très utile pour attribuer différentes voix aux interlocuteurs, ou pour mettre en évidence des titres divisant le texte :

<voice language="fr-FR" gender="male">Il est également possible de changer la voix au cours d'une séquence</voice>

pitch
La balise pitch modifie la tonalité de la voix. Elle prend en particulier les valeurs : "x-low", "low", "medium", "high", "x-high", or "default". Ou un pourcentage, ou encore une valeur relative telle que "-2st" où "st" signifie un demi-ton sur l’échelle diatonique.

<prosody pitch="-2st">et la tonalité de la voix.</prosody>

contour
Permet de faire varier le pitch au cours de l’énoncé.
Exemple (pour donner une forme interrogative) :

<prosody contour="(0%,+20Hz) (10%,+30%) (40%,+10Hz)">

    N'est-ce pas ?

  </prosody>

La prononciation

phoneme
Cette balise permet de définir la prononciation exacte d’un mot en utilisant sa représentation phonétique. Google Text-to-Speech accepte les alphabets phonétiques IPA et X-SAMPA.
Prenons par exemple Croÿ. Le nom se prononce toujours en français « croui » avec un « i voyelle »". Il faut donc remplacer dans le texte de la séquence le mot "Croÿ" par :

<phoneme alphabet="ipa" ph="kRui">Croÿ</phoneme>

Pour connaître les phonèmes à utiliser : Phonèmes pris en charge

sub
On utilise l’élément sub pour fournir une prononciation différente ou plus simple d’un mot. Cela est très utilisé pour épeler un acronyme, par exemple :

W3C

Ou, au contraire, pour éviter son épellation :

AGEC

Et même ne pas l’énoncer :

PAH

ce qui peut être utile pour clarifier l’énoncé d’une expression comme :
... Pays d’art et d’histoire (PAH) de Langres ...

L’élément sub est souvent plus facile à mettre en œuvre que phoneme. En voici des exemples :

<sub alias='un pacte à gris'>Un'Pact Agri</sub>

<sub alias='eup boxe'>UP'Box</sub>

<sub alias='scal i nov'>Scal’E-Nov</sub>

<sub alias='coule roule'>CoolRool</sub>

En savoir plus ?

Ce bref aperçu de SSML nous parait suffisant pour répondre à 99% du besoin de parfaire l’énoncé.

Pour ceux qui en veulent plus, voici la référence :
Langage de balisage de synthèse vocale

C’est trop difficile !

i-Tego maîtrise cela et vous propose de réaliser vos audioguides en "Mode agence". Vous bénéficierez de plus d’une rédaction par des spécialistes de l’histoire et de l’art.
Contactez nous

Balisage SSML : Améliorer l’énoncé

Balisage SSML : Améliorer l’énoncé

Le Rythme

La voix et la tonalité

La prononciation

En savoir plus ?

C’est trop difficile !

Dans la même rubrique