lOMoARcPSD|31591004
, lOMoARcPSD|31591004
Statistiek
- Inductieve statistiek = inferentiële statistiek
- Beschrijvende statistiek = descriptieve statistiek data analyseren door analyse van een steekproef
➔ Inferenties maken over populatie
➔ Inductieve: schatten van populatieparameters of toetsen van populatie
- Biostatistiek toepassing op biologische signalen, data van patiënten
Populatie
- = verzameling van entiteiten die op zijn minst 1 karakteristiek of eigenschap gemeen hebben
Vb. Belgische kinesitherapeuten of lichaamslengte van 1ste jaar studenten REVAKI
- N = doorgaans onbeperkt groot (niet altijd gekend)
- Populatie moet duidelijk gedefinieerd worden (geen discussie mogelijk)
Steekproef
- Dit is een deelverzameling van entiteiten (toevallig) getrokken uit de populatie
- n = steekproefgrootte (altijd gekend)
- Steekproef moet representatief zijn voor populatie (op basis van steekproef iets
kunnen zeggen over populatie) (vermijden van bias)
- Toeval speelt een rol
- Gebruiken voor het schatten van populatieparameters en testen van hypothesen
Inductieve statistiek
- Nadenken over welke hypotheses worden geformuleerd
- Hypotheses kunnen verwerpen of aanvaarden
- Proces waarbij men veralgemeent van steekproef naar populatie wordt statistische
inductie genoemd
- Inductie is altijd onderhevig aan onzekerheid
- Berekenen hoe groot de kans is op discrepanties tussen steekproef en populatie
Variabelen (wordt vaak aangeduid door een hoofdletter)
- Karakteristiek van populatie die verschillende waarden (attributen) kan aannemen
➔ Attribuut: specifieke waarde die men aan een variabele toekent
• Onafhankelijke variabele: independent variable – explanatory variable – predictor
o Beïnvloedt of veroorzaakt de
studievariabelen bv geslacht
• Afhankelijke variabele: dependent variable – outcome variable
o Wordt beïnvloedt door andere bv spierkracht
variabelen
µ1
, lOMoARcPSD|31591004
!!! Meetniveau variabele
BELANGRIJK
- Legt verschillende meetniveaus uit
- Meetniveau bepaald alles !
- Oefening:
is 30 graden celcius dubbel zo warm als 50 graden celcius neen
is 40 graden kelvin dubbel zo warm als 20 graden kelvin ja
- Nominaal = variabele die uitgedrukt wordt in categorieën en die categorieën zijn
MUTUEEL EXCLUSIEF (de categorieën sluiten elkaar wederzijds uit) (bv. Geslacht,
bloedgroep, haarkleur)
Er kan GEEN RANGORDE worden aangenomen hier!
- Ordinaal = categorieën met mutuele exclusiviteit MAAR WEL een rangorde (bv.
Leeftijdsklasse iemand in categorie 1 is ouder da iemand in categorie 2, bloeddruk
verhoogde/verlaagde/normale, medailles goud/zilver/brons.
Nominale en ordinale zijn categorische variabelen deze hoeven we niet uit te drukken in
numerieke waarden (= cijfers) bv. Man of vrouw, maar kan ook numeriek zijn bv. Geslacht
man =
1 geslacht vrouw = 2 cijfers hebben hier dus geen betekenis
- Interval: dit is een numerieke variabelen, heeft geen absoluut nulpunt (bv. Temperatuur in C°)
Het is een variabele waarbij op de meetschaal gelijke intervallen duiden op gelijke verschillen bv:
10 C° en 20 C° is even groot als verschil tussen 30C° en 40 C°
ABSOLUUT NULPUNT = het ontbreken van iets (wil dus niet zeggen dat er geen T is).
- Ratio = heeft een absoluut nulpunt (bv. Temperatuur in Kelvin) verschil tussen 60 graden kelvin en 70 = aan
verschil tussen 90- 100
men mag zeggen dat 20K het dubbele is van 10 K want 0 K is het absoluut nulpunt
Bv. Lichaamslengte in cm/M, spierkracht in N, bloeddruk in cm/Hg druk
leeftijd uitgedrukt in jaren MAAR kan ook een ordinale variabele zijn!
- Herleiden tot variabelen kan leiden tot informatie verlies (bv. Leeftijdsklasse 25, iemand
kan 26 jr zijn of 40)
- Voor analyse zal er meestal geen onderscheiding gemaakt worden tussen interval en ratio
(3 klassen)
- Kwaitatieve variabelen (nominaal en ordinaal) VS kwantitatieve variabelen (interval en ratio)
- Dichotome variabele = categorische variabele die wordt uitgedrukt in slecht 2
antwoord categorieën (bv. Geslacht, pijn of geen pijn, kanker of geen kanker) (ook bv
ja/nee vraag)
Binaire variabele = is een voorbeeld van een dichotome variabele en het antwoord wordt
uitgedrukt in 0 of 1 (bv. Leven = 1, dood = (of bv 0 = geen pijn en 1 = pijn)
0)
- discreet VS continu:
discreet = dit zijn variabelen die discreet zijn zoals bv tellingen aantal kinderen in het gezin
continu = variabelen die continu variëren zoals bv lichaamsgewicht
- soms hercoderen of transformeren we variabelen = variabelen laten overgaan
naar een ander meetniveau bv: enquête voor leeftijd in jaren en dat hercoderen naar
ordinalen (hercoderen kan wel tot infoverlies leiden.
,lOMoARcPSD|31591004
, lOMoARcPSD|31591004
Centrale maten:
- Rekenkundig gemiddelde
- Mediaan
- Modus
Spreidingsmaten:
- Variatie – standaard afwijking -variatiecoëfficiënt
- IKA (interval), percentielen
- Bereik
Rekenkundig gemiddelde noemt men gemiddelde (formule krijg je zie ufora)
- geldt enkel voor interval en ratio variabelen en dus niet voor nominaal en ordinaal
Formule: alle waarnemingen opgeteld/ steekproefgrootte (n)
- Steekproefgemiddelde wordt gebruik als schatting voor populatie gemiddelde µ (waarde
die bestaat, maar we kennen ze niet, constante)
- Schatting maken voor µ op basis van iets
- Populatie parameters (Griekse symbolen)
- Steekproeven statistieken (x gemiddeld)
➔ Toepasbaar bij interval of ratio, NIET bij nominale of ordinale!!!
- Het heeft uitschieters die u data beïnvloeden
Mediaan
- Waarneming hebben de neiging om zich te centreren rond een bepaalde locatie
- Middelste waarde na rangschikking van klein naar groot
- n even = twee middelste waarden gemiddelde nemen
- n oneven = middelste waarde
➔ interval, ratio of ordinaal, NIET bij nominaal (want daar geen rangorde mogelijk)
- Het heeft geen uitschieters die u data beïnvloeden
Modus
- waarde en categorie die het meest frequent voorkomt in de steekproef
- bv. 50 proefpersonen: 30 vrouwen en 20 mannen vrouwen = modus (komt meest voor)
➔ nominaal, ordinaal, interval en ratio (alles)
- je kan 2 modi (modus) hebben
- 1 modus aanwezig = uni-modaal
- 2 modi = bimodaal
- > 2 modi = multimodaal
- Het heeft geen uitschieters die u data beïnvloeden
5
, lOMoARcPSD|31591004
Onderlinge ligging gemiddelde, mediaan en modus
- 3 verdelingen/ distributies
- Midden: Gauss-curve
- Gemiddelde + mediaan + modus vallen samen (2de grafiek)
- 1ste grafiek: links scheve distributie (linker staart uittrekken)
- bij links scheve is gemiddelde < mediaan < modus
- 2de grafiek: rechts scheve distributie (rechter staart uitrekken)
assymetrisch
assymetris
perfect
ch recht scheve
symetrisch
Links scheve verdeling
verdeling
- bij rechts scheve is gemiddelde > mediaan > modus
Percentielen - kwartielen – bereik dit zijn spreidingsmaten
- Data kan opgedeeld worden in kwartielen (Q1, Q2, Q3)
- Data rangschikken van klein groot !!!!!
- Q1 = links 25% rechts 75% IKA
- Q2 = links 50% rechts 50% mediaan
- Q3 = links 75% rechts 25% IKA
- Q1 en Q3 bevatten 50% van de waarnemingen
- Interkwartiel afstand: Q3 – Q1
- Interkwartiel interval ( Q1;Q3)
- Range (bereik): verschil tussen minimum en maximum, laagste en hoogste waarde kan men ook in
interval schrijven ( min;max)
- Q1 = Percentiel 25
- Q2 = percentiel 50
- Q3 = Percentiel 75
6
, lOMoARcPSD|31591004
Statistiek
- Inductieve statistiek = inferentiële statistiek
- Beschrijvende statistiek = descriptieve statistiek data analyseren door analyse van een steekproef
➔ Inferenties maken over populatie
➔ Inductieve: schatten van populatieparameters of toetsen van populatie
- Biostatistiek toepassing op biologische signalen, data van patiënten
Populatie
- = verzameling van entiteiten die op zijn minst 1 karakteristiek of eigenschap gemeen hebben
Vb. Belgische kinesitherapeuten of lichaamslengte van 1ste jaar studenten REVAKI
- N = doorgaans onbeperkt groot (niet altijd gekend)
- Populatie moet duidelijk gedefinieerd worden (geen discussie mogelijk)
Steekproef
- Dit is een deelverzameling van entiteiten (toevallig) getrokken uit de populatie
- n = steekproefgrootte (altijd gekend)
- Steekproef moet representatief zijn voor populatie (op basis van steekproef iets
kunnen zeggen over populatie) (vermijden van bias)
- Toeval speelt een rol
- Gebruiken voor het schatten van populatieparameters en testen van hypothesen
Inductieve statistiek
- Nadenken over welke hypotheses worden geformuleerd
- Hypotheses kunnen verwerpen of aanvaarden
- Proces waarbij men veralgemeent van steekproef naar populatie wordt statistische
inductie genoemd
- Inductie is altijd onderhevig aan onzekerheid
- Berekenen hoe groot de kans is op discrepanties tussen steekproef en populatie
Variabelen (wordt vaak aangeduid door een hoofdletter)
- Karakteristiek van populatie die verschillende waarden (attributen) kan aannemen
➔ Attribuut: specifieke waarde die men aan een variabele toekent
• Onafhankelijke variabele: independent variable – explanatory variable – predictor
o Beïnvloedt of veroorzaakt de
studievariabelen bv geslacht
• Afhankelijke variabele: dependent variable – outcome variable
o Wordt beïnvloedt door andere bv spierkracht
variabelen
µ1
, lOMoARcPSD|31591004
!!! Meetniveau variabele
BELANGRIJK
- Legt verschillende meetniveaus uit
- Meetniveau bepaald alles !
- Oefening:
is 30 graden celcius dubbel zo warm als 50 graden celcius neen
is 40 graden kelvin dubbel zo warm als 20 graden kelvin ja
- Nominaal = variabele die uitgedrukt wordt in categorieën en die categorieën zijn
MUTUEEL EXCLUSIEF (de categorieën sluiten elkaar wederzijds uit) (bv. Geslacht,
bloedgroep, haarkleur)
Er kan GEEN RANGORDE worden aangenomen hier!
- Ordinaal = categorieën met mutuele exclusiviteit MAAR WEL een rangorde (bv.
Leeftijdsklasse iemand in categorie 1 is ouder da iemand in categorie 2, bloeddruk
verhoogde/verlaagde/normale, medailles goud/zilver/brons.
Nominale en ordinale zijn categorische variabelen deze hoeven we niet uit te drukken in
numerieke waarden (= cijfers) bv. Man of vrouw, maar kan ook numeriek zijn bv. Geslacht
man =
1 geslacht vrouw = 2 cijfers hebben hier dus geen betekenis
- Interval: dit is een numerieke variabelen, heeft geen absoluut nulpunt (bv. Temperatuur in C°)
Het is een variabele waarbij op de meetschaal gelijke intervallen duiden op gelijke verschillen bv:
10 C° en 20 C° is even groot als verschil tussen 30C° en 40 C°
ABSOLUUT NULPUNT = het ontbreken van iets (wil dus niet zeggen dat er geen T is).
- Ratio = heeft een absoluut nulpunt (bv. Temperatuur in Kelvin) verschil tussen 60 graden kelvin en 70 = aan
verschil tussen 90- 100
men mag zeggen dat 20K het dubbele is van 10 K want 0 K is het absoluut nulpunt
Bv. Lichaamslengte in cm/M, spierkracht in N, bloeddruk in cm/Hg druk
leeftijd uitgedrukt in jaren MAAR kan ook een ordinale variabele zijn!
- Herleiden tot variabelen kan leiden tot informatie verlies (bv. Leeftijdsklasse 25, iemand
kan 26 jr zijn of 40)
- Voor analyse zal er meestal geen onderscheiding gemaakt worden tussen interval en ratio
(3 klassen)
- Kwaitatieve variabelen (nominaal en ordinaal) VS kwantitatieve variabelen (interval en ratio)
- Dichotome variabele = categorische variabele die wordt uitgedrukt in slecht 2
antwoord categorieën (bv. Geslacht, pijn of geen pijn, kanker of geen kanker) (ook bv
ja/nee vraag)
Binaire variabele = is een voorbeeld van een dichotome variabele en het antwoord wordt
uitgedrukt in 0 of 1 (bv. Leven = 1, dood = (of bv 0 = geen pijn en 1 = pijn)
0)
- discreet VS continu:
discreet = dit zijn variabelen die discreet zijn zoals bv tellingen aantal kinderen in het gezin
continu = variabelen die continu variëren zoals bv lichaamsgewicht
- soms hercoderen of transformeren we variabelen = variabelen laten overgaan
naar een ander meetniveau bv: enquête voor leeftijd in jaren en dat hercoderen naar
ordinalen (hercoderen kan wel tot infoverlies leiden.
,lOMoARcPSD|31591004
, lOMoARcPSD|31591004
Centrale maten:
- Rekenkundig gemiddelde
- Mediaan
- Modus
Spreidingsmaten:
- Variatie – standaard afwijking -variatiecoëfficiënt
- IKA (interval), percentielen
- Bereik
Rekenkundig gemiddelde noemt men gemiddelde (formule krijg je zie ufora)
- geldt enkel voor interval en ratio variabelen en dus niet voor nominaal en ordinaal
Formule: alle waarnemingen opgeteld/ steekproefgrootte (n)
- Steekproefgemiddelde wordt gebruik als schatting voor populatie gemiddelde µ (waarde
die bestaat, maar we kennen ze niet, constante)
- Schatting maken voor µ op basis van iets
- Populatie parameters (Griekse symbolen)
- Steekproeven statistieken (x gemiddeld)
➔ Toepasbaar bij interval of ratio, NIET bij nominale of ordinale!!!
- Het heeft uitschieters die u data beïnvloeden
Mediaan
- Waarneming hebben de neiging om zich te centreren rond een bepaalde locatie
- Middelste waarde na rangschikking van klein naar groot
- n even = twee middelste waarden gemiddelde nemen
- n oneven = middelste waarde
➔ interval, ratio of ordinaal, NIET bij nominaal (want daar geen rangorde mogelijk)
- Het heeft geen uitschieters die u data beïnvloeden
Modus
- waarde en categorie die het meest frequent voorkomt in de steekproef
- bv. 50 proefpersonen: 30 vrouwen en 20 mannen vrouwen = modus (komt meest voor)
➔ nominaal, ordinaal, interval en ratio (alles)
- je kan 2 modi (modus) hebben
- 1 modus aanwezig = uni-modaal
- 2 modi = bimodaal
- > 2 modi = multimodaal
- Het heeft geen uitschieters die u data beïnvloeden
5
, lOMoARcPSD|31591004
Onderlinge ligging gemiddelde, mediaan en modus
- 3 verdelingen/ distributies
- Midden: Gauss-curve
- Gemiddelde + mediaan + modus vallen samen (2de grafiek)
- 1ste grafiek: links scheve distributie (linker staart uittrekken)
- bij links scheve is gemiddelde < mediaan < modus
- 2de grafiek: rechts scheve distributie (rechter staart uitrekken)
assymetrisch
assymetris
perfect
ch recht scheve
symetrisch
Links scheve verdeling
verdeling
- bij rechts scheve is gemiddelde > mediaan > modus
Percentielen - kwartielen – bereik dit zijn spreidingsmaten
- Data kan opgedeeld worden in kwartielen (Q1, Q2, Q3)
- Data rangschikken van klein groot !!!!!
- Q1 = links 25% rechts 75% IKA
- Q2 = links 50% rechts 50% mediaan
- Q3 = links 75% rechts 25% IKA
- Q1 en Q3 bevatten 50% van de waarnemingen
- Interkwartiel afstand: Q3 – Q1
- Interkwartiel interval ( Q1;Q3)
- Range (bereik): verschil tussen minimum en maximum, laagste en hoogste waarde kan men ook in
interval schrijven ( min;max)
- Q1 = Percentiel 25
- Q2 = percentiel 50
- Q3 = Percentiel 75
6