Categorische variabelen Berekening vb. standaarddeviatie Populatie: gehele groep aan individuelen
- Nominaal (man, vrouw) waar we info over wilen
- Ordinaal (SES) Sample/steekproef: deel van de populatie
Bar graphs/pie charts die we onderzoeken om info te verzamelen
Kwantitatieve variabelen
- Interval (geen abs. 0-punt, IQ,
temperatuur)
- Ratio (absoluut 0-punt, salaris) Simple random sample (SRS): iedereen
Histogrammen/stemplots in de populatie heeft een gelijke kans om
in de steekproef te komen
Probability sample: steekproef gekozen
Mean (x̄): gemiddelde bij toeval welke steekproeven zijn
Mediaan (M): middelste getal (50% mogelijk en welke kans hebben ze elk
erboven, 50% eronder) Stratified random sample: eerst
Modus: meest voorkomende populatie in gelijke groepen delen (strata)
en dan een SRS in elke stratum en deze
Standard error: standaard deviatie van een combineren
2
Variance (s ): het gemiddelde van de statistiek is geschat uit de data Multistage random sample: steeds
kwadraten van de deviaties van het s
Standard error of sample mean: SEx = kleinere groepen selecteren in fases
gemiddelde √n
N
∑ ( X i−X ) 2 ∑ of squares SS
2
S=
i=1
= = Relatief risico (RR): manier om twee
N −1 N−1 N −1 proporties te vergelijken een RR van 1
betekent dat de twee proporties aan elkaar
Standard deviation (s): spreiding gelijk zijn
rondom het gemiddelde
^p1
Normaalverdeling RR=
^p2
- 68% van de observaties binnen
σ van de μ
- 95% van de observaties binnen
2σ van de μ
- 99.7% van de observaties
binnen 3σ van de μ
-
,Margin of error vermindert als:
- Lager confidenceniveau (kleinere C)
- Grotere steekproefgrootte (n)
- Lagere populatie standaarddeviatie
σ
Hypothesen
H0: er is geen verschil in
populatiegemiddelden / het verschil = 0
HA: er is een verschil in
populatiegemiddelden / het verschil 0
H0 verwerpen als:
- P-waarde < 0.05
- Geen 0 in CI interval
- Gevonden t extremer dan t*
Type I error: als we H0 verwerpen (HA
accepteren) terwijl H0 waar is
Type II error: als we H0 accepteren (HA
verwerpen) terwijl HA waar is
Twee soorten t-testen
Independent samples t-test
- Personen verdeeld in 2 groepen, 1
score per persoon
- Between subjects design
Paired samples t-test Confounding = verstoring
- Steeds 2 scores van dezelfde oplossen dmv:
persoon, onder verschillende Counterbalancing = volgorde
condities gerandomiseerd
- Within subjects design
,Sampling distribution: verdeling van Margin of error: meting van de spreiding van een Betrouwbaarheid: bij herhaling
waarden in alle mogelijke steekproeven sampling distribution gebruikt om grenzen te stellen van de meting krijg je dezelfde
van dezelfde n van dezelfde populatie aan de grootte van de waarschijnlijke error waarden
Population distribution: verdeling van de Variability of a statistic: spreiding van de sampling - Variabiliteit verminderen:
waarden van alle leden van een populatie distribution grotere probability samples hebben grotere steekproef
ook de probability distribution van de kleinere spreidingen gebruiken
variabele als één random individu gekozen Validiteit: je meet wat je hoort
wordt te meten
x−μ - Bias verminderen:
Z-score (standardized value): z= of z=
Parameter: getal die populatie beschrijft σ random sampling
Statistiek: getal dat steekproef beschrijft X− X gebruiken
SD
aantal successen∈steekproef X Betrouwbaarheidsinterval voor een proportie
Proportie ( p̌): =
steekproefgrootte n
proportie is altijd tussen 0 en 1 Confidence intervals: schatting margin of error μ = x ± m
¿ σ
Margin of error: m=z
Steekproefverdeling van één steekproefproportie
¿
√n ¿ ¿
z = critical value opp. C onder normale verdeling tussen kritieke waarde - z en z
^p= steekproefproportie om p te schatten
Maximale margin of error als steekproef als volgt wordt bepaald:
n=
m ( )
z¿ σ 2
Standaard error (SE) van de steekproefproportie:
^p (1− ^p )
n √
Betrouwbaarheidsinterval voor p: ^p ± z
¿
√ ^p (1− ^p )
n
, The Plus Four Estimate voor The Plus Four Estimate voor twee Large-sample estimate van het verschil in twee
Single Proportion proporties populatie proporties
- Wanneer het aantal - Wanneer het aantal successen
successen en/of niet- en/of niet-successen ten minste 5 is D= ^p 1−^p 2
successen < 10 is - Kan bij 90%, 95% en 99%
- Kan bij 90%, 95% en 99% - Verschil tussen twee populatie ^p1 en ^p 2: steekproef proporties
proporties
~ X +2 X1 X2
p= ^p1= en ^p2 =
n+ 4 ^p = n1 n2
aantal successen∈beide samples X 1+ X 2
=
√
~
p (1−~p) aantal observaties∈beide samples n1+ n2
SE~p= Standaard error van het verschil D:
√
n+4 ^p (1−^p1) ^p2 (1−^p 2)
Pooled estimate: schatting van p SED = 1 +
n1 n2
m=z ¿ SE~p combineert/poolt de info van beide
samples
~ Margin of error voor confidence level C:
p±m
X1+ X2 m=z ¿ SE D
^p=
√
~p(1−~p) n1 +n 2
~
p ± z¿ Large sample level C confidence interval:
n+ 4 D±m
√
SED ^p= ^p (1−^p )
( n1 + n1 )
1 2
Relative risk:
De sample size die nodig is voor een - Elke proportie = het risico (vaak slecht) dat
^p1−^p2
CI voor de margin of error voor een z= iets gebeurt
proportie: SE Dp
- Vergelijken van de twee risico’s = relative
( )
z¿ 2 ¿ ¿ risk (RR)
√
n= p (1−p ) ~p (1−~
m p1 ) ~p2 (1−~ p2 ) - RR = 1 betekent dat de twee proporties ^p1
CI: (~
p1 −~
p2¿ ± z
¿ 1
+
p*= geschatte waarde van de n1 +2 n2 +2 en ^p2 gelijk zijn
proportie ^p1
RR=
^p2
Om zeker te weten dat de margin of HA:p1 > p2 is P(Z z)
error van het interval ≤ m, wat ^p ook HA:p1 < p2 is P(Z z)
is:
1 z¿
( )
2
n=
4 m
- Nominaal (man, vrouw) waar we info over wilen
- Ordinaal (SES) Sample/steekproef: deel van de populatie
Bar graphs/pie charts die we onderzoeken om info te verzamelen
Kwantitatieve variabelen
- Interval (geen abs. 0-punt, IQ,
temperatuur)
- Ratio (absoluut 0-punt, salaris) Simple random sample (SRS): iedereen
Histogrammen/stemplots in de populatie heeft een gelijke kans om
in de steekproef te komen
Probability sample: steekproef gekozen
Mean (x̄): gemiddelde bij toeval welke steekproeven zijn
Mediaan (M): middelste getal (50% mogelijk en welke kans hebben ze elk
erboven, 50% eronder) Stratified random sample: eerst
Modus: meest voorkomende populatie in gelijke groepen delen (strata)
en dan een SRS in elke stratum en deze
Standard error: standaard deviatie van een combineren
2
Variance (s ): het gemiddelde van de statistiek is geschat uit de data Multistage random sample: steeds
kwadraten van de deviaties van het s
Standard error of sample mean: SEx = kleinere groepen selecteren in fases
gemiddelde √n
N
∑ ( X i−X ) 2 ∑ of squares SS
2
S=
i=1
= = Relatief risico (RR): manier om twee
N −1 N−1 N −1 proporties te vergelijken een RR van 1
betekent dat de twee proporties aan elkaar
Standard deviation (s): spreiding gelijk zijn
rondom het gemiddelde
^p1
Normaalverdeling RR=
^p2
- 68% van de observaties binnen
σ van de μ
- 95% van de observaties binnen
2σ van de μ
- 99.7% van de observaties
binnen 3σ van de μ
-
,Margin of error vermindert als:
- Lager confidenceniveau (kleinere C)
- Grotere steekproefgrootte (n)
- Lagere populatie standaarddeviatie
σ
Hypothesen
H0: er is geen verschil in
populatiegemiddelden / het verschil = 0
HA: er is een verschil in
populatiegemiddelden / het verschil 0
H0 verwerpen als:
- P-waarde < 0.05
- Geen 0 in CI interval
- Gevonden t extremer dan t*
Type I error: als we H0 verwerpen (HA
accepteren) terwijl H0 waar is
Type II error: als we H0 accepteren (HA
verwerpen) terwijl HA waar is
Twee soorten t-testen
Independent samples t-test
- Personen verdeeld in 2 groepen, 1
score per persoon
- Between subjects design
Paired samples t-test Confounding = verstoring
- Steeds 2 scores van dezelfde oplossen dmv:
persoon, onder verschillende Counterbalancing = volgorde
condities gerandomiseerd
- Within subjects design
,Sampling distribution: verdeling van Margin of error: meting van de spreiding van een Betrouwbaarheid: bij herhaling
waarden in alle mogelijke steekproeven sampling distribution gebruikt om grenzen te stellen van de meting krijg je dezelfde
van dezelfde n van dezelfde populatie aan de grootte van de waarschijnlijke error waarden
Population distribution: verdeling van de Variability of a statistic: spreiding van de sampling - Variabiliteit verminderen:
waarden van alle leden van een populatie distribution grotere probability samples hebben grotere steekproef
ook de probability distribution van de kleinere spreidingen gebruiken
variabele als één random individu gekozen Validiteit: je meet wat je hoort
wordt te meten
x−μ - Bias verminderen:
Z-score (standardized value): z= of z=
Parameter: getal die populatie beschrijft σ random sampling
Statistiek: getal dat steekproef beschrijft X− X gebruiken
SD
aantal successen∈steekproef X Betrouwbaarheidsinterval voor een proportie
Proportie ( p̌): =
steekproefgrootte n
proportie is altijd tussen 0 en 1 Confidence intervals: schatting margin of error μ = x ± m
¿ σ
Margin of error: m=z
Steekproefverdeling van één steekproefproportie
¿
√n ¿ ¿
z = critical value opp. C onder normale verdeling tussen kritieke waarde - z en z
^p= steekproefproportie om p te schatten
Maximale margin of error als steekproef als volgt wordt bepaald:
n=
m ( )
z¿ σ 2
Standaard error (SE) van de steekproefproportie:
^p (1− ^p )
n √
Betrouwbaarheidsinterval voor p: ^p ± z
¿
√ ^p (1− ^p )
n
, The Plus Four Estimate voor The Plus Four Estimate voor twee Large-sample estimate van het verschil in twee
Single Proportion proporties populatie proporties
- Wanneer het aantal - Wanneer het aantal successen
successen en/of niet- en/of niet-successen ten minste 5 is D= ^p 1−^p 2
successen < 10 is - Kan bij 90%, 95% en 99%
- Kan bij 90%, 95% en 99% - Verschil tussen twee populatie ^p1 en ^p 2: steekproef proporties
proporties
~ X +2 X1 X2
p= ^p1= en ^p2 =
n+ 4 ^p = n1 n2
aantal successen∈beide samples X 1+ X 2
=
√
~
p (1−~p) aantal observaties∈beide samples n1+ n2
SE~p= Standaard error van het verschil D:
√
n+4 ^p (1−^p1) ^p2 (1−^p 2)
Pooled estimate: schatting van p SED = 1 +
n1 n2
m=z ¿ SE~p combineert/poolt de info van beide
samples
~ Margin of error voor confidence level C:
p±m
X1+ X2 m=z ¿ SE D
^p=
√
~p(1−~p) n1 +n 2
~
p ± z¿ Large sample level C confidence interval:
n+ 4 D±m
√
SED ^p= ^p (1−^p )
( n1 + n1 )
1 2
Relative risk:
De sample size die nodig is voor een - Elke proportie = het risico (vaak slecht) dat
^p1−^p2
CI voor de margin of error voor een z= iets gebeurt
proportie: SE Dp
- Vergelijken van de twee risico’s = relative
( )
z¿ 2 ¿ ¿ risk (RR)
√
n= p (1−p ) ~p (1−~
m p1 ) ~p2 (1−~ p2 ) - RR = 1 betekent dat de twee proporties ^p1
CI: (~
p1 −~
p2¿ ± z
¿ 1
+
p*= geschatte waarde van de n1 +2 n2 +2 en ^p2 gelijk zijn
proportie ^p1
RR=
^p2
Om zeker te weten dat de margin of HA:p1 > p2 is P(Z z)
error van het interval ≤ m, wat ^p ook HA:p1 < p2 is P(Z z)
is:
1 z¿
( )
2
n=
4 m