Reconnaissance vocale et spectrogramme
Modérateur : moderateur
Reconnaissance vocale et spectrogramme
Bonsoir,
J'ai un exercice à faire pour la spé, sur lequel je bloque :
"La voix peut être décomposée en une suite de sons distinctifs appelés phonèmes. Les mots "lait" et "loup", par exemple, diffèrent par un phonème respectivement repété en alphabet phonétique par [[smb]epsilon[/smb]] et . Le repérage des phonèmes est l'une des étapes de la reconnaissance vocale. Le spectre du son correspondant à un phonème fait apparaître plusieurs pics appelés formants (doc. 1). Ils sont dus à des phénomènes de résonance à l'intérieur du conduit vocal; leur fréquence dépend de la position des divers organes mis en jeu dans la voix (langues, lèvres, etc.). Les formants sont caractéristiques du phonème prononcé. Sur un spectrogramme, les formants sont repérés par des zones plus sombres (doc. 2), car les intensités sonores correspondantes sont plus importantes. Les analyses spectrales montrent que quatre à cinq formants importants sont présents dans tous les psectres de voix. Le spectre en fréqunces et le spectrogramme de la voyelle "è" sont donnés dans les documents 1 et 2. Cinq formants, notés F1, F2, F3, F4 et F5, ont été repérés. Le document 3 est le spectrogramme obtenu lors de la prononciation de quatre phonèmes : "i", "è", "o" et "ou" notés phonétiquement , [[smb]epsilon[/smb]], [o] et . Le document 4 est le spectrogramme de quatre mots contenant les voyelles précédentes : "lit", "lait", "lot" et "loup". Ces quatre mots sont dans le désordre et sont repérés par des lettres de A à D."
"Question : Identifier les mots "lit", "lait", "lot" et "loup" dans le spectrogramme du document 4."
C'est la première fois que je dois analyser un spectrogramme donc du coup je suis un peu perdu ^^'.
Je ne suis pas sur d'avoir tout saisi en fait mais j'ai tout de même une piste (bien que je ne sais pas vraiment comment l'expliquer pour résoudre le problème). Dans le doc 2, on dirait que les formants correspondent non seulement aux bandes rouges foncées, mais également aux vertes/turquoises. Ces dernières se retrouvent dans le spectrogramme des voyelles o (deux bandes vertes) et ou (une seule) du doc 3. Si ma piste est bonne, alors dans le doc 4, la lettre A (deux bandes turquoises) correspondrait à un mot contenant la voyelle o, soit "lot" et la lettre C (une bande turquoise) à "loup". Mais même si j'ai juste, je ne vois pas qu'est ce qui me permet d'identifier les lettres B et D...
Je m'excuse pour la qualité des documents, mais vous devriez percevoir les couleurs en zoomant normalement.
Je vous remercie d'avance. :)
J'ai un exercice à faire pour la spé, sur lequel je bloque :
"La voix peut être décomposée en une suite de sons distinctifs appelés phonèmes. Les mots "lait" et "loup", par exemple, diffèrent par un phonème respectivement repété en alphabet phonétique par [[smb]epsilon[/smb]] et . Le repérage des phonèmes est l'une des étapes de la reconnaissance vocale. Le spectre du son correspondant à un phonème fait apparaître plusieurs pics appelés formants (doc. 1). Ils sont dus à des phénomènes de résonance à l'intérieur du conduit vocal; leur fréquence dépend de la position des divers organes mis en jeu dans la voix (langues, lèvres, etc.). Les formants sont caractéristiques du phonème prononcé. Sur un spectrogramme, les formants sont repérés par des zones plus sombres (doc. 2), car les intensités sonores correspondantes sont plus importantes. Les analyses spectrales montrent que quatre à cinq formants importants sont présents dans tous les psectres de voix. Le spectre en fréqunces et le spectrogramme de la voyelle "è" sont donnés dans les documents 1 et 2. Cinq formants, notés F1, F2, F3, F4 et F5, ont été repérés. Le document 3 est le spectrogramme obtenu lors de la prononciation de quatre phonèmes : "i", "è", "o" et "ou" notés phonétiquement , [[smb]epsilon[/smb]], [o] et . Le document 4 est le spectrogramme de quatre mots contenant les voyelles précédentes : "lit", "lait", "lot" et "loup". Ces quatre mots sont dans le désordre et sont repérés par des lettres de A à D."
"Question : Identifier les mots "lit", "lait", "lot" et "loup" dans le spectrogramme du document 4."
C'est la première fois que je dois analyser un spectrogramme donc du coup je suis un peu perdu ^^'.
Je ne suis pas sur d'avoir tout saisi en fait mais j'ai tout de même une piste (bien que je ne sais pas vraiment comment l'expliquer pour résoudre le problème). Dans le doc 2, on dirait que les formants correspondent non seulement aux bandes rouges foncées, mais également aux vertes/turquoises. Ces dernières se retrouvent dans le spectrogramme des voyelles o (deux bandes vertes) et ou (une seule) du doc 3. Si ma piste est bonne, alors dans le doc 4, la lettre A (deux bandes turquoises) correspondrait à un mot contenant la voyelle o, soit "lot" et la lettre C (une bande turquoise) à "loup". Mais même si j'ai juste, je ne vois pas qu'est ce qui me permet d'identifier les lettres B et D...
Je m'excuse pour la qualité des documents, mais vous devriez percevoir les couleurs en zoomant normalement.
Je vous remercie d'avance. :)
Re: Reconnaissance vocale et spectrogramme
Bonsoir.
je n'ai pas le premier document.
Cependant si j'ai bien compris vous devez comparer les spectrogrammes.
Pour le spectrogramme du doc 3 vous devez notez les valeurs de fréquences de ce que l'énoncé appelle les formants, toutes celles qui sont notables même les claires je suppose que les fréquences de ces formants sont des multiples entiers du première en tout cas c'est ce que semble montrer le doc 2.
Faites de même avec le spectrogramme du doc 4 et ensuite identifiez les différents mots en fonction de la correspondance entre les formants.
je n'ai pas le premier document.
Cependant si j'ai bien compris vous devez comparer les spectrogrammes.
Pour le spectrogramme du doc 3 vous devez notez les valeurs de fréquences de ce que l'énoncé appelle les formants, toutes celles qui sont notables même les claires je suppose que les fréquences de ces formants sont des multiples entiers du première en tout cas c'est ce que semble montrer le doc 2.
Faites de même avec le spectrogramme du doc 4 et ensuite identifiez les différents mots en fonction de la correspondance entre les formants.
Re: Reconnaissance vocale et spectrogramme
Voilà le premier document.
En suivant votre démarche, je note ceci :
Doc 3 :
Pour le phonème "i", je constate 2 formants de fréquences respectives 180 Hz (bande large rouge foncé) et 350 Hz (fine rouge clair).
Pour le phonème "è", 6 formants de fréquences respectives 180 Hz (large rouge foncé), 340 Hz (fine rouge foncé), 480 Hz (fine rouge clair), 650 Hz (large rouge foncé), 800 Hz (fine rouge foncé) et 2200 Hz (fine rose).
Ca correspond à peu près aux docs 1 et 2.
Pour le phonème "o", 5 formants de fréquences respectives 180 Hz (une partie fine rouge foncé et une autre plus large et plus clair), 340 Hz (fine turquoise), 480 Hz (fine turquoise), 650 Hz (fine rouge clair) et 800 Hz (fine rouge foncé).
Pour le phonème "ou", 3 formants de fréquences respectives 200 Hz (fine rouge foncé), 400 Hz (fine rouge foncé dont une partie turquoise) et 650 Hz (fine rose).
Doc 4 :
A : plusieurs (je ne suis pas sûr si ce sont plusieurs formants collés les uns aux autres juste un seul gros formant) formants de fréquences respectives 150 Hz (fine rouge foncé), 180 Hz (large rouge foncé dont une partie turquoise), 300 Hz (large rose), 480 Hz (large roe ont une partie turquoise).
B : 9 formants de fréquences respectives 150 Hz (fine rouge foncé), 180 Hz (rine rouge foncé), 430 Hz (fine rouge clair), 480 Hz (fine rouge foncé), 600 Hz (large rouge foncé), 900 Hz (fine rose), 2080 Hz (large rose) et 2200 Hz (large rose).
C : 5 formants de fréquences respectives 150 Hz (large rouge foncé), 200 Hz (large rouge foncé dont une partie verte), 480 Hz (large rouge foncé), 600 Hz (large rose) et 700 Hz (fine rose).
D : 3 formants de fréquences respectives 180 Hz (fine rose foncé), 280 Hz (fine rouge clair) et 300 Hz (fine rouge foncé).
En comparant le nombre de bandes et leur fréquence associée, je peux en déduire facilement que la lettre B correspond à la voyelle "è". Pour les autres, ça a l'air moins évident ^^'.
Je continuerai l'exercice demain après-midi sur le forum (il est à faire pour plus tard dans la semaine), je vous remercie déjà pour votre disponibilité :)
En suivant votre démarche, je note ceci :
Doc 3 :
Pour le phonème "i", je constate 2 formants de fréquences respectives 180 Hz (bande large rouge foncé) et 350 Hz (fine rouge clair).
Pour le phonème "è", 6 formants de fréquences respectives 180 Hz (large rouge foncé), 340 Hz (fine rouge foncé), 480 Hz (fine rouge clair), 650 Hz (large rouge foncé), 800 Hz (fine rouge foncé) et 2200 Hz (fine rose).
Ca correspond à peu près aux docs 1 et 2.
Pour le phonème "o", 5 formants de fréquences respectives 180 Hz (une partie fine rouge foncé et une autre plus large et plus clair), 340 Hz (fine turquoise), 480 Hz (fine turquoise), 650 Hz (fine rouge clair) et 800 Hz (fine rouge foncé).
Pour le phonème "ou", 3 formants de fréquences respectives 200 Hz (fine rouge foncé), 400 Hz (fine rouge foncé dont une partie turquoise) et 650 Hz (fine rose).
Doc 4 :
A : plusieurs (je ne suis pas sûr si ce sont plusieurs formants collés les uns aux autres juste un seul gros formant) formants de fréquences respectives 150 Hz (fine rouge foncé), 180 Hz (large rouge foncé dont une partie turquoise), 300 Hz (large rose), 480 Hz (large roe ont une partie turquoise).
B : 9 formants de fréquences respectives 150 Hz (fine rouge foncé), 180 Hz (rine rouge foncé), 430 Hz (fine rouge clair), 480 Hz (fine rouge foncé), 600 Hz (large rouge foncé), 900 Hz (fine rose), 2080 Hz (large rose) et 2200 Hz (large rose).
C : 5 formants de fréquences respectives 150 Hz (large rouge foncé), 200 Hz (large rouge foncé dont une partie verte), 480 Hz (large rouge foncé), 600 Hz (large rose) et 700 Hz (fine rose).
D : 3 formants de fréquences respectives 180 Hz (fine rose foncé), 280 Hz (fine rouge clair) et 300 Hz (fine rouge foncé).
En comparant le nombre de bandes et leur fréquence associée, je peux en déduire facilement que la lettre B correspond à la voyelle "è". Pour les autres, ça a l'air moins évident ^^'.
Je continuerai l'exercice demain après-midi sur le forum (il est à faire pour plus tard dans la semaine), je vous remercie déjà pour votre disponibilité :)
Re: Reconnaissance vocale et spectrogramme
Vous êtes sur la bonne voies.
Pour la voyelle "i" il y a un autre formant vers 500 (très clair donc peu intense).
On retrouve les trois même formant pour le spectrogramme "D" donc vous pouvez en déduire qu'il s'agit certainement du mot lit.
Je vous laisse continuer.
N'oubliez pas que vous devez vous efforcer d'apporter une réponse rédiger c'est-à-dire argumenter à l'aide des documents fournis et de vos connaissances.
Bon travail.
Pour la voyelle "i" il y a un autre formant vers 500 (très clair donc peu intense).
On retrouve les trois même formant pour le spectrogramme "D" donc vous pouvez en déduire qu'il s'agit certainement du mot lit.
Je vous laisse continuer.
N'oubliez pas que vous devez vous efforcer d'apporter une réponse rédiger c'est-à-dire argumenter à l'aide des documents fournis et de vos connaissances.
Bon travail.
Re: Reconnaissance vocale et spectrogramme
Rebonsoir,
Concernant la synthèse, j'en ai déjà l'habitude d'en faire donc je n'aurai aucun problème pour la rédiger. ;)
Effectivement, j'avais pas fait attention au formant à 500 Hz de la voyelle "i", du coup les spectrogrammes "i" et D concordent parfaitement !
Pour les autres, les formants du spectrogramme "ou" semblent correspondre (même fréquences + même intensités/claretés...) avec celui du spectrogramme C, donc ce dernier correspondrait au spectrogramme du mot "loup".
Le spectrogramme B semble correspondre à la voyelle è (c'est spécialement le formant situé à environ 2150 Hz, qui me permettrait de dire ça car il est présent dans les deux spectrogrammes) donc il s'agirait du spectrogramme du mot "lait".
Ceci me laisse donc avec le spectrogramme A (bien qu'il contienne seulement deux formants, ce qui me fait douter) qui correspondrait à la voyelle "o" mais je n'en suis pas vraiment sur comme ce premier ne contient que deux formants par rapport au spectrogramme "o".
Pensez-vous que j'ai juste ? J'ai un petit doute pour les spectrogrammes B et A...
Concernant la synthèse, j'en ai déjà l'habitude d'en faire donc je n'aurai aucun problème pour la rédiger. ;)
Effectivement, j'avais pas fait attention au formant à 500 Hz de la voyelle "i", du coup les spectrogrammes "i" et D concordent parfaitement !
Pour les autres, les formants du spectrogramme "ou" semblent correspondre (même fréquences + même intensités/claretés...) avec celui du spectrogramme C, donc ce dernier correspondrait au spectrogramme du mot "loup".
Le spectrogramme B semble correspondre à la voyelle è (c'est spécialement le formant situé à environ 2150 Hz, qui me permettrait de dire ça car il est présent dans les deux spectrogrammes) donc il s'agirait du spectrogramme du mot "lait".
Ceci me laisse donc avec le spectrogramme A (bien qu'il contienne seulement deux formants, ce qui me fait douter) qui correspondrait à la voyelle "o" mais je n'en suis pas vraiment sur comme ce premier ne contient que deux formants par rapport au spectrogramme "o".
Pensez-vous que j'ai juste ? J'ai un petit doute pour les spectrogrammes B et A...
Re: Reconnaissance vocale et spectrogramme
Bonjour Alexandre,
Pour l'association du "spectrogramme D" avec "lit" c'est bon, ensuite
Pour la suite il vous reste deux inconnus (A et C) et deux mots lot et loup. Il ne vous reste plus qu'à comparer les "richesses" (càd le plus grand nombre d'harmoniques) entre "o" et "ou"puis entre "C" et "A" afin de trancher.
Sos(14)
Pour l'association du "spectrogramme D" avec "lit" c'est bon, ensuite
Là je suis d'accord avec vous.Alexandre S a écrit :Le spectrogramme B semble correspondre à la voyelle è (c'est spécialement le formant situé à environ 2150 Hz, qui me permettrait de dire ça car il est présent dans les deux spectrogrammes) donc il s'agirait du spectrogramme du mot "lait".
Pour la suite il vous reste deux inconnus (A et C) et deux mots lot et loup. Il ne vous reste plus qu'à comparer les "richesses" (càd le plus grand nombre d'harmoniques) entre "o" et "ou"puis entre "C" et "A" afin de trancher.
Sos(14)
Re: Reconnaissance vocale et spectrogramme
Merci pour la confirmation ! :p Par contre, lorsque vous parlez de compter le nombre d'harmoniques, est ce qu'il s'agit d'une autre façon pour parler de formants ? Dans ce cas, j'ai réussi à identifier les deux lettres manquantes :
Les spectrogrammes "o" et C ont tous les deux 5 formants, dont les trois premiers (intensité et fréquence) correspondent. J'en déduis que C est bien le spectrogramme du mot "lot".
Les deux formants foncés/à intensité élevé du spectrogramme A correspondent avec les deux premiers formants du spectrogramme "ou" donc le mot "loup" est identifié dans le spectrogramme A.
Les spectrogrammes "o" et C ont tous les deux 5 formants, dont les trois premiers (intensité et fréquence) correspondent. J'en déduis que C est bien le spectrogramme du mot "lot".
Les deux formants foncés/à intensité élevé du spectrogramme A correspondent avec les deux premiers formants du spectrogramme "ou" donc le mot "loup" est identifié dans le spectrogramme A.
Re: Reconnaissance vocale et spectrogramme
Bonjour Alexandre,
Je suis d'accord avec vos réponses.
Pour le terme d'harmoniques, j'aurai du utiliser plutôt le terme de formant qui est plus adapté au monde de la voix.
Sos(14)
Je suis d'accord avec vos réponses.
Pour le terme d'harmoniques, j'aurai du utiliser plutôt le terme de formant qui est plus adapté au monde de la voix.
Sos(14)
Re: Reconnaissance vocale et spectrogramme
Merci beaucoup pour votre aide ! J'ai dorénavant fini la synthèse avec la réponse complète au problème. Merci encore !