Veure
els sons: representacions acústiques
Però
com es pot veure un so? Ja hem dit abans que els sons de la parla
són complexos, és a dir, que tenen vibracions daire
a diferents freqüències simultàniament. (Recordem
que els sons simples són els que produeixen els diapasons,
per exemple.)
Observa
el so anterior. Com pots veure si observes el gràfic, sempre
es repeteix el mateix patró que es limita a anar des
del punt dinici fins al punt màxim, baixar fins al
punt mínim i tornar al punt dinici: el cicle, periòdicament
i amb una regularitat perfecta. Això significa que aquest
so està compost per una sola ona, que té una determinada
freqüència (és a dir, que repeteix la mateixa
forma x vegades per segon). En aquest cas, veruàs que la
freqüència és molt i molt baixa (5 cicles per
segon, ja que el cicle es repeteix 15 vegades en els tres segons
que representa el gràfic). Aquest so és inaudible
per una persona.
En
canvi, fixat ara en la forma dona següent:
Aquesta ona continua essent periòdica, perquè els
cicles es repeteixen, però ara hi ha 20 cicles en 50 mil·lèssimes.
Per tant, aquest so té una freqüència de 400
Hz, és a dir, es repeteix el cicle 400 cops cada segon. Aquest
so sí que és audible. [so]
Ara
fixat en el gràfic següent (que és una
mostra de la vocal [o]):
En
aquest cas també es repeteix un patró, però
aquest és complex, és a dir, està format per
més duna ona simple. Per entendre aquest concepte,
podem pensar en una analogia: pensa per exemple que una ona simple
és una nota musical, mentre que una ona complexa és
un acord.
Per
veure els sons, existeixen diversos tipus de gràfics que
donen informacions diferents. Els més importants són:
Oscil·lograma
Espectre (fft i lpc)
Espectrograma
Freqüència fonamental
Oscil·logrames
Els gràfics que hem vist anteriorment són oscil·logrames
o formes dona (en anglès, waveforms). Aquests gràfics
són la representació gràfica de les diferències
en la pressió de laire a través del temps. Leix
de les x representa el pas del temps, i leix de les y representa
els canvis en la pressió de laire.
Observant
aquests gràfics obtenim dues informacions importants per
entendre els sons de la parla: la freqüència i lamplitud.
La
freqüència és el nombre de vegades per segon
que el cicle es repeteix o podem veure observant leix
horitzontal. En canvi, lamplitud indica quanta pressió
de laire hi ha en un cada moment. Quan lona passa pel
punt zero significa que en aquell moment hi ha la pressió
ambiental normal; quan arriba al punt màxim indica que en
aquell moment la pressió de laire és més
gran; i quan arriba al punt més baix, significa òbviament
que la pressió de laire és menor que la pressió
ambiental.
Espectre
(fft i lpc)
Els
sons de la parla són tots complexos, és a dir, estan
formats per molts sons simples. Fourier (un matemàtic del
segle XIX) va demostrar que les ones periòdiques complexes
estaven formades per una sèrie dones simples de diferents
amplituds i freqüències.
En
lanàlisi acústica de la parla sutilitzen
dos tipus despectres basats en el teorema de Fourier: el Fast
Fourier Transform (FFT) i el Linear Predictive Coding (LPC). El
primer (en català Transformada Ràpida de Fourier)
és un mètode ràpid de descomposar un instant
duna ona per veuren lamplitud en totes les freqüències.
LLPC (en català Codificació Linear Predictiva)
és una suavització de lFFT basant-se en què
lamplitud en diverses freqüències es pot predir
a partir de la que tenen les freqüències veïnes.
Lespectre
és una forma de representar quina és lamplitud
en cada banda de freqüències. En el següent exemple
veiem una anàlisi LPC sobreposada a una FFT. Correspon al
so [i].
Espectrogrames
Ara
ja sabem com són els espectres. Però en els espectres
no hi tenim cap informació referent al temps. Per tant, podem
saber com es distribueix lenergia en tot lespectre en
un moment determinat però no podem saber què passa
abans o després. Una solució seria fer centenars despectres
(FFT o LPC) cada mil·lèsima de segon, per exemple,
i veurels un darrera laltre per observar-ne els canvis.
Seria un gràfic aproximadament com el següent:
No
obstant, aquest gràfic és força difícil
dinterpretar. Una altra manera, probablement més fàcil
dinterpretar, és utilitzar un mètode semblant
però amb un gràfic de dues dimensions: leix
vertical indica freqüències i leix horitzontal,
el temps. I la intensitat? Doncs a través dun codi
de colors (o bé, més usualment, en blanc i negre:
com més fosc, més intensitat). En tenim uns exemple
a continuació:
Els
dos espectrogrames representen el mateix fragment de parla. La diferència
és en la «resolució». El de dalt és
un espectrograma de banda ampla i el de baix és de banda
estreta. Aquesta diferència fa referència a lamplada
de la finestra que es fa servir per a lanàlisi: els
pespectrogrames de banda estreta mostren duna manera clara
els harmònics de lona glotal. Les línies més
fosques representen els harmònics. Aquest tipus despectrograma
sutilitza sovint també per analitzar lentonació
a través de lanàlisi de la freqüència
fonamental (que correspon al primer harmònic).
En
canvi, els espectrogrames de banda ampla són més idonis
per analitzar els formants i els canvis temporals.
Freqüència
fonamental
La
freqüència fonamental (o F0) és la freqüència
més baixa dun senyal periòdic. Per tant, només
podrem parlar dF0 en els sons sonors. Acústicament,
la freqüència fonamental és el primer harmònic
de lespectre.
Limatge
següent representa una porció de lespectre duna
vocal. La ratlla vertical indica la freqüència del primer
harmònic. Observa com tots els altres harmònics tenen
una freqüència múltiple de la del primer (estan
situats a la mateixa distància).
En
el següent espectrograma hi ha una línia blava que mostra
la freqüència fonamental. Lespectrograma representa
la pregunta Veritat o mentida?. Com podeu observar,
lF0 puja duna manera molt clara al final per marcar
lentonació de la pregunta.
|