Kennisclips beschrijvende en interferentiële statistiek
2 vues 0 fois vendu
Cours
Beschrijvende en interferentiële statistiek
Établissement
Vrije Universiteit Amsterdam (VU)
Dit document bevat aantekeningen van alle kennisclips van statistiek. Het document is in het Nederlands maar zal soms Engelse termen bevatten. Alle begrippen staan erin, door dit document te combineren met aantekeningen van de colleges heb ik een 8,6 als eindcijfer behaalt.
Deeltoets 1 (week 1 & 2)
Beschrijvende statistiek = samenvatting van verkregen data.
Inferentiële statistiek = uitspraken en voorspellingen doen over hele populatie op basis van
de verkregen data.
To infer = concluderen uit/opmaken uit.
Variabelen = kenmerken van iemand of iets
Cases = zijn die iemand of iets
Dichotoom = een aparte naam voor een nominale variabele met 2 categorieën.
Een beter voorbeeld van een interval variabele (in plaats van leeftijd)
is temperatuur. Een tip om te onthouden of er sprake is van een betekenisvol
nulpunt: als het gisteren 10 graden Celsius was en vandaag 20 graden is, kun je dan
zeggen dat het buiten "twee keer zo warm" is? (10 * 2 = 20).
Nee, want als we dit zouden omrekenen naar graden Fahrenheit (deze schaal heeft
een ander nulpunt), dan is er slechts een temperatuurstijging van 50°F naar 68°F.
Nominale categorische variabelen: hebben als waarden geen getallen, maar alleen
kenmerken of categorieën, bijv. geslacht, nationaliteit of religie.
Kwantitatieve variabelen: variabelen die als waarde getallen aannemen, bijv. leeftijd,
gewicht.
Ordinale variabelen: categorische variabele met “rangordening” in de categorieën, bijv.
opleidingsniveau.
Cases en variabelen presenteren
Datamatrix = overzicht van cases en variabelen (cases op y-as, variabelen op x-as).
Je presenteert je datamatrix meestal niet i.v.m. de grootte.
Voor kwantitatief is frequentietabel (samenvatting van data, percentages etc.) niet handig
(haarkleur bijv. wel).
Categorical (nominaal/ordinaal)
Cirkeldiagram
Voordelen: makkelijk het percentage zien
Staafdiagram
Voordeel: het exacte aantal zien, bij hoge aantallen/variabelen
Kwantitatief
Histogram: zelfde als staaf maar dan staven aan elkaar.
bij interval/ratio
Mode= value dat het meest voorkomen (bi-modal distribution)
Median= de middelste waarde van je observaties van klein naar groot 6778889,
67778889 7,5 is median
Mean= optellen delen door aantal (gemiddelde)
Wanneer welke?
bij nominaal (catagorical) geen median of mean
bij kwantitatief median beter dan mean (voorbeeld bar met voetballer hoog salaris
mean hoog, outlier)
,2 maten van variabiliteit
1. Range (bereik)
Verschil tussen hoogste en laagste aantal.
+ Makkelijk te begrijpen en simpel uit te voeren
- geeft geen goede indruk van de variabiliteit (neemt alleen de meest extreme aantallen)
2. Interquartile range (IQR) = Q3 – Q1, median = Q2
+ laat de extreme waarden los
+ verdeelt ‘distribution’ in 4 gelijke delen (25%)
Outliers zijn waarden lager dan Q1 – 1,5(IQR) of hoger dan Q3 + 1,5(IQR)
Diagram om center, variabiliteit en outliers te laten zien box plot
2 andere methoden van variabiliteit
1. Variatie (s2) formule zie college 1
- het is in het kwadraat wortel nemen om deze weg te krijgen standaardeviatie
2. Standaarddeviatie
observatie ( x ) −gemiddelde ( mu)
z-score = x = mu *2*s(sigma)
standaarddeviatie( s/ sigma)
skewed naar links meer negatieve z-scores (en andersom)
75% moet binnen -2 en 2 zitten
Categorische variabelen (discreet omdat ze een beperkte hoeveelheid categorieën hebben)
bij ordinaal: kruistabel
Nominaal: de data kunnen alleen worden gecategoriseerd zonder duidelijke rangorde.
Ordinaal: de data kunnen worden gecategoriseerd en er is sprake van een duidelijke
rangorde.
Kwantitatieve variabelen (kunnen zowel discreet als continu zijn)
spreidingsdiagram, Pearsons R (lineaire correlatie), OLS regressie-analyse
Correlatiecoëfficiënt
Pearsons R richting en sterkte van lineaire correlatie met één getal
Sterke positieve correlatie als x groter wordt, wordt y ook groter
, Sterke negatieve correlatie als x groter wordt, wordt y kleiner
Zwakke positieve relatie/negatieve relatie minder sterk een lijn te zien
Curvilinear relatie U-vorm
Pearson’s R sterkte tussen -1 en 1, -1 is perfect negatief, 1 is perfect positief, 0 betekent
geen relatie
Σ ZxZy
Pearson’s r = hoef je niet te berekenen op tentamen, alleen logica erachter
n−1
begrijpen Zx = z-score x-as, Zy = z-score y-as
Je kan altijd de pearson’s r berekenen, ook al is de relatie niet lineair dus altijd scatterplot
checken voordat je pearson’s r berekent. Als je ziet dat er geen lineair verband is, ga dan niet
de pearson’s r berekenen, want dit vertelt je niks over het verband tussen de variabelen.
Regressielijn vinden afstand tot ‘landen’ meten (positieve en negatieve residuals) voor
alle mogelijke lijnen. Lijn met de kleinste som van de residuals in het kwadraat. (ordinary
least squares regression) is onmogelijk om te doen.
Beschrijven handig voor communicatie, voorspellen en identificeren van ‘gekke’ cases.
Y(dakje) = a + bx y: voorspelde waarde van y a: intercept/constante
b: regressie coëfficiënt
Y(dakje) = alle waarden op de regressielijn. B1=b2. Bbbbb1 is geen b2
A = de voorspelde waarde van y als x=0 a1 geen a2. A1 = a2
B = richtingscoëfficiënt (s = standaarddevi.)
A = Y(dakje) – b(x(dakje))
Sy
b=r
Sx
hoe meer variabelen, hoe beter de voorspelling
regressielijn beter voorspellen dan het gemiddelde
r2 = prediction error (pearson’s r)
r vertelt je over de direction en sterkte van de relatie (negatief/positief)
r2 is altijd positief en dus zegt het niks over de relatie wel over hoeveel beter de regressielijn
iets voorspeld dan het gemiddelde. En hoeveel van je afhankelijke variabele verklaard wordt
door de onafhankelijke variabele.
Toepassen van correlatie en regressie (video 2.4, week 1)
De eerste video laat zien dat je de data zorgvuldig moet inspecteren voordat je correlatie- en
regressiecoëfficiënten gaat berekenen, omdat (1) een samenhang veroorzaakt kan worden
door (een groepje) uitbijters ('outliers'), en (2) een verband niet-lineair kan zijn.
De tweede video beargumenteert dat correlatie niet meteen betekent dat je een causale
relatie hebt gevonden tussen de onafhankelijke en de afhankelijke variabele.
Betrouwbaarheidsanalyse
Geen consistente antwoorden niet betrouwbaar
Betrouwbaarheid = consistentie van het meetinstrument
Meetvaliditeit (geldigheid) = meet het instrument wat je wil meten?
Hoe kunnen we de interne betrouwbaarheid van een meting vaststellen?
split-half methode of Cronbach’s alpha
Les avantages d'acheter des résumés chez Stuvia:
Qualité garantie par les avis des clients
Les clients de Stuvia ont évalués plus de 700 000 résumés. C'est comme ça que vous savez que vous achetez les meilleurs documents.
L’achat facile et rapide
Vous pouvez payer rapidement avec iDeal, carte de crédit ou Stuvia-crédit pour les résumés. Il n'y a pas d'adhésion nécessaire.
Focus sur l’essentiel
Vos camarades écrivent eux-mêmes les notes d’étude, c’est pourquoi les documents sont toujours fiables et à jour. Cela garantit que vous arrivez rapidement au coeur du matériel.
Foire aux questions
Qu'est-ce que j'obtiens en achetant ce document ?
Vous obtenez un PDF, disponible immédiatement après votre achat. Le document acheté est accessible à tout moment, n'importe où et indéfiniment via votre profil.
Garantie de remboursement : comment ça marche ?
Notre garantie de satisfaction garantit que vous trouverez toujours un document d'étude qui vous convient. Vous remplissez un formulaire et notre équipe du service client s'occupe du reste.
Auprès de qui est-ce que j'achète ce résumé ?
Stuvia est une place de marché. Alors, vous n'achetez donc pas ce document chez nous, mais auprès du vendeur lottekok97. Stuvia facilite les paiements au vendeur.
Est-ce que j'aurai un abonnement?
Non, vous n'achetez ce résumé que pour €7,16. Vous n'êtes lié à rien après votre achat.