AKOESTISCHE FONETIEK
HOOFDSTUK 1: REGISTREREN VAN GELUIDEN
1. Functie van de microfoon
Akoestisch signaal => elektrisch signaal
Geluidsgolf => elektrische stroom
Drukverschillen => spanning of potentiaalverschillen
Uitwijking van luchtpartikels
Samenstelling van frequenties
Sinusvormige bewegingen
2. Van analoog akoestisch naar digitaal signaal
Akoestisch AD- Digitaal
Microfoon Elektrisch signaal
signaal convertor signaal
DIGITALISEREN VAN GELUID
1. Analoog of digitaal
Analoog:
- Oneindig veel mogelijke waarden
- Op elk mogelijk tijdstip een andere waarde
Digitaal:
- Discreet aantal mogelijke waarden
- Op discrete tijdstippen een andere waarde
2. Digitaliseren van geluid (omzetting van rood naar blauw)
1 Sampling: op vaste tijdstippen wordt het signaalgeluid bekeken
2 Kwantisatie: de waarde van het signaal op deze tijdstippen wordt vastgelegd
3 Coderen: waardes natoren (in bits en bytes)
3. Stap 1: bemonstering = smapling
- Op regelmatige tijdstippen wordt een sample (monster) van het signaal
genomen)
- “tijdsdiscretisering" = tijds-as in discrete stukken verdelen
- Sampling rate = aantal monsters per s
= fs = 1/ Δt
- Tijdsintervallen tussen samples = Δt = 1/ fs
4. Stap 2: kwantiseren (quantising)
- Waarde van vaste samples vastleggen
- = waarde amplitude van sample kan aantal discrete waarden aannemen
- “discretisering” = amplitude-as in discrete stukken verdelen
- Mogelijke waarden; sampling size, resolution, bit depth
- Kwantificeringsruis = het verschil tussen analoog signaal en gekwantificeerd
signaal
= hoorbaar bij lage sample size (<8bit)
, 5. Stap 3: digitale codering
- Pc werkt volgens binair stelsel sample size uitegdrukt als binair getal vb. 01001
1 bit 2 mogelijke waarden 0 1
2 bits 4 mogelijke waarden (= 2²) 00 01 10 11
3 bits 8 mogelijke waarden (=2³)
N bits n² mogelijke waarden
- Bit depth = aantal mogelijke waarden dat het sample kan aannemen, uitgedrukt
in bits (vb. 2 bit = 4 mogelijkheden)
- Typische waarden =
Spraak= 8 bit (256 waarden)
Muziek = 16 (65 536 waarden)
- Gewenste sampling rate twee samples per periode nodig om volledige sinus te
herkennen
- Ondersampling: aliasing
= in digitale signaal zal een f voorkomen die niet aanwezig was in het originale
Minimale samplingsfrequentie = 2x hoogste frequentie aanwezig
Hoogste f die goed gedigitaliseerd kan worden = fs / 2 = Nyquist frequency
Digitaliseren: laagdoorlaatfilter die alle frequenties boven Nyquist frequentie uit
het signaal filtert
= Anti-aliasing filter
SAMPLING RATE MUZIEK SAMPLING RATE SPRAAK
Hoogst hoorbare f = 22 000 Hz Geen informatie boven 10 000 Hz
fs = 44 000 Hz / 44kHz fs =20 000 Hz / 20 kHz
Anti-aliasing filtering vanaf 22 000 Hz Anti-aliasing filtering vanaf 10 000 Hz
- Compressie van het signaal = nodige opslagruimte verkleinen zonder de kwaliteit
v signaal (te veel) aan te tasten
ANALYSE VAN HET GELUID
1. Fourriertransformatie en FFT
a. Osscilogram spectrum sprectrogram
b. Vensters /windows
2. Linerar Predictive coding
Fourier transformatie
- Tijdsdomein s(t) frequentiedomein S(w)
Fourier analyse
- Golfvorm reeks frequentiecomponenten
- Oscillogram spectrogram
Fast Fourier Transformatie (FFT)
- Berekeningen met discrete waarden
- Bewerking van een digitaal geluidssignaal (DFT)
, - Opgesteld voor continue en ononderbroken golven
- Oscillogram spectrum via FFT
- Spectrum oscillogram via inverse FFT (IFFT)
Stelling van Fourier
- Een complexe trilling is een samenstelling van een reeks strikt sinussoïdale
trillingen met verschillende frequentie en variërend qua amplitude en fase.
FFT bij spraak?
- Volledig spraaksignaal is geen ononderbroken signaal
- Een kort gedeelte van het spraaksignaal kan wel beschouwd worden als een
continu ononderbroken signaal
- = windowing
Alternatieven voor een rechthoekig venster
- Hamming window
- Hann window
Window size en sampling rate
- Window size uitgedrukt in ms of
in aantal samples
- VB fs= 22 kHz
Window size = 1024 samples
, WIDEBAND NARROWBAND
Linear Predictive Coding (LPC)
- Algoritme dat resonanties in kaart brengt ( cfr. Bron-filter model)
- Model om de enveloppe van een spectrum te schatten
Linear prediction
- Volgende sample voorspellen o.b.v. de vorige samples
- Model streeft ernaar om de verschillen tss het voorspelde sample en het huidige
te minimaliseren
- Verschillende methoden
o Autocorrelatie
o Covariance
o …
LPC
- Hoe meer voorspellende coëfficiënten, hoe meer formanten gevonden kunnen
worden
- Per formant zijn 2 coëfficiënten nodig + coëfficiënten voor globale aspecten
- VB. grondfrequentie en amplitudeverwijzigingen
- 12 coëfficiënten 2 formanten
- FAST FOURIER TRANSFORM - LINEAR PREDICTIVE CODING
Veronderstelt een periodische complexe golf Geen periodisch signaal noodzakelijk
( sonorante spraakklank)
Toont individuele harmonischen Toont resonantiefrequenties (formanten)
Levert discrete reeks grond- en boventonen Groepeert harmonischen
Toont spectrale enveloppe
HOOFDSTUK 1: REGISTREREN VAN GELUIDEN
1. Functie van de microfoon
Akoestisch signaal => elektrisch signaal
Geluidsgolf => elektrische stroom
Drukverschillen => spanning of potentiaalverschillen
Uitwijking van luchtpartikels
Samenstelling van frequenties
Sinusvormige bewegingen
2. Van analoog akoestisch naar digitaal signaal
Akoestisch AD- Digitaal
Microfoon Elektrisch signaal
signaal convertor signaal
DIGITALISEREN VAN GELUID
1. Analoog of digitaal
Analoog:
- Oneindig veel mogelijke waarden
- Op elk mogelijk tijdstip een andere waarde
Digitaal:
- Discreet aantal mogelijke waarden
- Op discrete tijdstippen een andere waarde
2. Digitaliseren van geluid (omzetting van rood naar blauw)
1 Sampling: op vaste tijdstippen wordt het signaalgeluid bekeken
2 Kwantisatie: de waarde van het signaal op deze tijdstippen wordt vastgelegd
3 Coderen: waardes natoren (in bits en bytes)
3. Stap 1: bemonstering = smapling
- Op regelmatige tijdstippen wordt een sample (monster) van het signaal
genomen)
- “tijdsdiscretisering" = tijds-as in discrete stukken verdelen
- Sampling rate = aantal monsters per s
= fs = 1/ Δt
- Tijdsintervallen tussen samples = Δt = 1/ fs
4. Stap 2: kwantiseren (quantising)
- Waarde van vaste samples vastleggen
- = waarde amplitude van sample kan aantal discrete waarden aannemen
- “discretisering” = amplitude-as in discrete stukken verdelen
- Mogelijke waarden; sampling size, resolution, bit depth
- Kwantificeringsruis = het verschil tussen analoog signaal en gekwantificeerd
signaal
= hoorbaar bij lage sample size (<8bit)
, 5. Stap 3: digitale codering
- Pc werkt volgens binair stelsel sample size uitegdrukt als binair getal vb. 01001
1 bit 2 mogelijke waarden 0 1
2 bits 4 mogelijke waarden (= 2²) 00 01 10 11
3 bits 8 mogelijke waarden (=2³)
N bits n² mogelijke waarden
- Bit depth = aantal mogelijke waarden dat het sample kan aannemen, uitgedrukt
in bits (vb. 2 bit = 4 mogelijkheden)
- Typische waarden =
Spraak= 8 bit (256 waarden)
Muziek = 16 (65 536 waarden)
- Gewenste sampling rate twee samples per periode nodig om volledige sinus te
herkennen
- Ondersampling: aliasing
= in digitale signaal zal een f voorkomen die niet aanwezig was in het originale
Minimale samplingsfrequentie = 2x hoogste frequentie aanwezig
Hoogste f die goed gedigitaliseerd kan worden = fs / 2 = Nyquist frequency
Digitaliseren: laagdoorlaatfilter die alle frequenties boven Nyquist frequentie uit
het signaal filtert
= Anti-aliasing filter
SAMPLING RATE MUZIEK SAMPLING RATE SPRAAK
Hoogst hoorbare f = 22 000 Hz Geen informatie boven 10 000 Hz
fs = 44 000 Hz / 44kHz fs =20 000 Hz / 20 kHz
Anti-aliasing filtering vanaf 22 000 Hz Anti-aliasing filtering vanaf 10 000 Hz
- Compressie van het signaal = nodige opslagruimte verkleinen zonder de kwaliteit
v signaal (te veel) aan te tasten
ANALYSE VAN HET GELUID
1. Fourriertransformatie en FFT
a. Osscilogram spectrum sprectrogram
b. Vensters /windows
2. Linerar Predictive coding
Fourier transformatie
- Tijdsdomein s(t) frequentiedomein S(w)
Fourier analyse
- Golfvorm reeks frequentiecomponenten
- Oscillogram spectrogram
Fast Fourier Transformatie (FFT)
- Berekeningen met discrete waarden
- Bewerking van een digitaal geluidssignaal (DFT)
, - Opgesteld voor continue en ononderbroken golven
- Oscillogram spectrum via FFT
- Spectrum oscillogram via inverse FFT (IFFT)
Stelling van Fourier
- Een complexe trilling is een samenstelling van een reeks strikt sinussoïdale
trillingen met verschillende frequentie en variërend qua amplitude en fase.
FFT bij spraak?
- Volledig spraaksignaal is geen ononderbroken signaal
- Een kort gedeelte van het spraaksignaal kan wel beschouwd worden als een
continu ononderbroken signaal
- = windowing
Alternatieven voor een rechthoekig venster
- Hamming window
- Hann window
Window size en sampling rate
- Window size uitgedrukt in ms of
in aantal samples
- VB fs= 22 kHz
Window size = 1024 samples
, WIDEBAND NARROWBAND
Linear Predictive Coding (LPC)
- Algoritme dat resonanties in kaart brengt ( cfr. Bron-filter model)
- Model om de enveloppe van een spectrum te schatten
Linear prediction
- Volgende sample voorspellen o.b.v. de vorige samples
- Model streeft ernaar om de verschillen tss het voorspelde sample en het huidige
te minimaliseren
- Verschillende methoden
o Autocorrelatie
o Covariance
o …
LPC
- Hoe meer voorspellende coëfficiënten, hoe meer formanten gevonden kunnen
worden
- Per formant zijn 2 coëfficiënten nodig + coëfficiënten voor globale aspecten
- VB. grondfrequentie en amplitudeverwijzigingen
- 12 coëfficiënten 2 formanten
- FAST FOURIER TRANSFORM - LINEAR PREDICTIVE CODING
Veronderstelt een periodische complexe golf Geen periodisch signaal noodzakelijk
( sonorante spraakklank)
Toont individuele harmonischen Toont resonantiefrequenties (formanten)
Levert discrete reeks grond- en boventonen Groepeert harmonischen
Toont spectrale enveloppe