Inhoud:
• Inleiding Statistiek en Grafische Beschrijvende Technieken
• Numerieke Beschrijvende Maatregelen
• Kans rekenen
• Discrete kansverdelingen
• Continue kansverdelingen
• Steekproeven en steekproevenverdelingen
• Schatting
• Hypothesetesten (I)
• Hypothesetesten (II) en inferentie omtrent een populatie (I)
• Inferentie omtrent een populatie (II)
• 2 Oefenopgaven
Inleiding Statistiek en Grafische Beschrijvende Technieken
Statistiek
• Manier om informatie te verkrijgen vanuit data door bepaalde berekeningen te doen met de
data
• Collecteren, analyseren en interpreteren van data
- inzicht krijgen in fenomenen
- behulpzaam in besluitmaking processen
Doel = over fenomenen uit de werkelijke wereld uitspraken te doen.
Key concepts:
Populatie = set van totale items waar interesse in getoond wordt in een statistisch probleem
Parameter = beschrijvende maatstaf van de populatie
Steekproef / Sample = set van data verzameld binnen de populatie
Statistic = beschrijvende maatstaf van de sample / steekproef
Vb: opiniepeiling in de verkiezingen
• Populatie : alle volwassenen uit NL
• Parameter: proportie van stemmers voor specifieke kandidaten
Descriptive vs. Inferential statistics
Beschrijvende statistiek =
• Toepassen van statistische technieken om informatie te krijgen uit de data die beschikbaar is.
• Presenteren en samenvatten van gegevens op een effectieve manier.
• Plaatjes en tabellen en samenvattende maatstaven.
Inferentie statistiek =
• Gegevens van een deel van de populatie tot onze beschikking. Aan de hand van deze data kun
je een uitspraak doen over de gehele populatie.
• Conclusies trekken over de populatie (parameters) gebaseerd op sample (statistics)
• Er is ook sprake van onzekerheid, waarschijnlijkheidstheorie wordt gebruik om de
betrouwbaarheid van de statements te meten. (Hypothesetoets)
Measurement level of variables
Keuze van gepaste statische techniek hangt af van het meetniveau/type van de geanalyseerde
variabelen.
Variabele = eigenschap van een populatie of van een steekproef.
,Kwalitatief en Kwantitatief
• Kwalitatief = kenmerken die gemeten worden, zodat de uitkomst in een categorie ingedeeld
kan worden.
- nominaal: elkaar uitsluitende categorieën, labeling (vb: land van herkomst). Data kan niet op
volgorde gezet worden, elke waarde is een waarde op zich.
- ordinaal: natuurlijke rangordening. (vb: voorkeur voor cola (zeer lekker, lekker, etc.)
• Kwantitatief = uitkomsten zijn numeriek. Resultaat van: telproces/meetproces
- interval: wordt gewerkt met hoeveelheden. Er is ook een arbitrair nulpunt. (vb. maatstaf
temperatuur, of maatstaf schoenmaat.)
- ratio: absoluut nulpunt(= 0 is ook echt 0). (vb. leeftijd, afstand, lengte).
Meetniveau Aspecten
Nominaal • Waarden zijn nummers die een categorie representeren
• Alleen berekeningen op basis van frequentie of percentages zijn
mogelijk
Ordinaal • Waarden moeten de gerangschikte volgorde voorstellen
• Data kan behandeld worden als nominaal, maar niet als interval
Interval • Waarden zijn echte getallen
• Data kan worden behandeld als nominaal of ordinaal
Ratio • Waarden zijn echte getallen
• Alle berekeningen zijn mogelijk
• Data kan worden behandeld als nominaal, ordinaal of interval
Frequency tables and histograms (beschrijvende technieken voor kwantitatieve data -
interval/ratio)
Example 3.1: a telephone company has examined the telephone bills of new subscribers in first
month after signing on
• Data verzamelen
• Bereid een frequentieverdeling/tabel voor
• Maak een histogram
,Frequentieverdeling = een tabel waarbij de
waarnemingen in niet overlappende
intervallen/klassen, worden ingedeeld en van
elke klasse het aantal observaties (frequenties)
wordt vermeldt.
Klassengrenzen = bovengrens hoort bij de klasse,
ondergrens hoort bij de vorige klassen. Klasse
30.00-45.00 bevat niet de waarde 30.00, maar
wel de waarde 45.00. Alleen 0.00 wordt wel
meegenomen bij de 1e klasse.
Aantal klassen = 1 + 3,3log(n)
𝐵𝑒𝑟𝑒𝑖𝑘 (𝐺𝑟𝑜𝑜𝑡𝑠𝑡𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑒−𝑘𝑙𝑒𝑖𝑛𝑠𝑡𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑒)
Klassenbreedte = 𝐴𝑎𝑛𝑡𝑎𝑙 𝑘𝑙𝑎𝑠𝑠𝑒𝑛 = 𝐴𝑎𝑛𝑡𝑎𝑙 𝑘𝑙𝑎𝑠𝑠𝑒𝑛
Vormen van een histogram
Symmetrisch = observaties zijn gebalanceerd
Positive nasleep (skewness): piek aan het begin, schuine afloop naar rechts. Rechtsscheef.
Negatieve nasleep (skewness): piek aan het eind, schuine afloop naar links. Linksscheef.
Piek = modale klasse
• Een modale klasse = de klasse met het hoogte aantal van observaties.
Unimodaal histogram = histogram met één piek.
, Bimodaal histogram = histogram met twee pieken, twee modale klassen.
Bell shaped histogram
• Veel statistische technieken vereisen dat de populatie klokvormig is (normale verdeling)
• Histogram tekenen, zorgt voor verificatie van de vorm van de gevraagde populatie.
Cumulatieve relatieve frequentieverdeling (ogive)
Ogive = grafische weergave van een cumulatieve relatieve frequentieverdeling
• Example 3.1
•
Stem-and-leaf display = steelbladdiagram
• Grafische technieken die vaak gebruikt worden in voorlopige analyses
• Alternatief voor histogram
• Laat de waarde zien van originele observaties, waar histogrammen deze verliezen.
Steel en blad bepalen:
• Getallen links van de ',' is de steel.
• Getallen recht van de ',' is het blad.
• 19,1 -> 19 = steel , 1 = blad