Discrete verdelingen: (verschillende categorieën, het een of het ander)
- Bernouilli verdeling: 2 mogelijk uitkomsten, 1 keer het experiment uitvoeren
- Binomiale (tweetermig): veralgemening van de Bernoulli verdeling. 2 mogelijke
uitkomsten, meerdere keren het experiment onafhankelijk uitvoeren
1. RFC Distributions Area under binomial density
- Multinomiaal: Het experiment kan meerdere oplossingen hebben + meerdere malen
uitvoeren
Naive Bayes Classifier: een manier om iets te classificeren: je zegt vanaf dat punt is iets
frauduleus en vanaf dat punt niet…
Kwalitatieve data: Opdelen in categorieën, je kan ook tellen hoe vaak een bepaalde
categorie voorkomt
Frequentieplot
Frequentietabel
Contingentietabel: 2 dimensionale frequentietabel
o Binomiale classificatie tabel
o Confusion matrix
Adhv de Naive Bayes Classifier een voorspelling maken of het
frauduleus is of niet
De uitkomst van de Classifier is altijd Kwalitatief
De input om het model te maken is Kwantitatief
Chi-squared test (hypotheses)
o Categorische variabele in combinatie met binaire variabele
o P-waarde > kleine alfa = waarden zijn gelijk, niet significant
o P-waarde < kleine alfa = significant verschillend
, Continue verdelingen: (variabelen die oneindig veel waarden kunnen aannemen)
- Uniforme verdeling:
o De kans dat een waarde voorkomt is even groot
o Het is een dichtheidsfunctie (en geen verdelingsfunctie)
o Totale oppervlakte onder de grafiek = 1
o Random getallen generator = uniform verdeeld: de kans dat het voorkomt is
even groot
o Kurtosis = 9/5
o Verdelingsfunctie:
De uniforme verdeling getekend als een cumulatieve curve
- Normaal verdeling (Gausscurve)
o Belangrijke componenten:
Mu (µ): gemiddelde
Sigma (σ): standaardafwijking (breedte van de verdeling)
Hoe kleiner sigma, hoe kleiner de onzekerheid
Oppervlakte onder de curve is (bijna) 1
Is niet begrensd (tussen min/plus oneindig)
o Skewness = 0
o Kurtosis = 3
o Maximum likelihood (ML fitting)
Alleen normaalverdeling gebruiken om zaken te voorspellen als de gegevens normaal
verdeeld zijn
- Chi-kwadraatverdeling
Is een rechtsscheve verdeling: vertrekt bij 0 en gaat tot + oneindig
Het kwadrateren van de normaalverdeling
Verhouding van 2 Chi-kwadraatverdelingen = de Fisher verdeling
Kwantitatieve data:
- Stem en Leaf plot (Descriptive)
Alle kwantitatieve data kan hiermee voorgesteld worden
Stam en dan het blad (blad bestaat altijd uit 1 getal)
- Histogram (Descriptive Histogram & frequency table)
Verdelen in bakjes (categoriseren, maar is geen categorische data) en
sorteren van klein naar groot
Afhankelijk van het aantal bakjes krijg je een andere voorstelling
- Kwantielen
We gaan een kwantitatieve datareeks sorteren van klein naar groot en die
gaan we indeling in een aantal gelijke stukken
Percentiles: alles wordt in blokjes van 1% opgedeeld
Harrel-Davis Quantiles (Descriptive)
- Bernouilli verdeling: 2 mogelijk uitkomsten, 1 keer het experiment uitvoeren
- Binomiale (tweetermig): veralgemening van de Bernoulli verdeling. 2 mogelijke
uitkomsten, meerdere keren het experiment onafhankelijk uitvoeren
1. RFC Distributions Area under binomial density
- Multinomiaal: Het experiment kan meerdere oplossingen hebben + meerdere malen
uitvoeren
Naive Bayes Classifier: een manier om iets te classificeren: je zegt vanaf dat punt is iets
frauduleus en vanaf dat punt niet…
Kwalitatieve data: Opdelen in categorieën, je kan ook tellen hoe vaak een bepaalde
categorie voorkomt
Frequentieplot
Frequentietabel
Contingentietabel: 2 dimensionale frequentietabel
o Binomiale classificatie tabel
o Confusion matrix
Adhv de Naive Bayes Classifier een voorspelling maken of het
frauduleus is of niet
De uitkomst van de Classifier is altijd Kwalitatief
De input om het model te maken is Kwantitatief
Chi-squared test (hypotheses)
o Categorische variabele in combinatie met binaire variabele
o P-waarde > kleine alfa = waarden zijn gelijk, niet significant
o P-waarde < kleine alfa = significant verschillend
, Continue verdelingen: (variabelen die oneindig veel waarden kunnen aannemen)
- Uniforme verdeling:
o De kans dat een waarde voorkomt is even groot
o Het is een dichtheidsfunctie (en geen verdelingsfunctie)
o Totale oppervlakte onder de grafiek = 1
o Random getallen generator = uniform verdeeld: de kans dat het voorkomt is
even groot
o Kurtosis = 9/5
o Verdelingsfunctie:
De uniforme verdeling getekend als een cumulatieve curve
- Normaal verdeling (Gausscurve)
o Belangrijke componenten:
Mu (µ): gemiddelde
Sigma (σ): standaardafwijking (breedte van de verdeling)
Hoe kleiner sigma, hoe kleiner de onzekerheid
Oppervlakte onder de curve is (bijna) 1
Is niet begrensd (tussen min/plus oneindig)
o Skewness = 0
o Kurtosis = 3
o Maximum likelihood (ML fitting)
Alleen normaalverdeling gebruiken om zaken te voorspellen als de gegevens normaal
verdeeld zijn
- Chi-kwadraatverdeling
Is een rechtsscheve verdeling: vertrekt bij 0 en gaat tot + oneindig
Het kwadrateren van de normaalverdeling
Verhouding van 2 Chi-kwadraatverdelingen = de Fisher verdeling
Kwantitatieve data:
- Stem en Leaf plot (Descriptive)
Alle kwantitatieve data kan hiermee voorgesteld worden
Stam en dan het blad (blad bestaat altijd uit 1 getal)
- Histogram (Descriptive Histogram & frequency table)
Verdelen in bakjes (categoriseren, maar is geen categorische data) en
sorteren van klein naar groot
Afhankelijk van het aantal bakjes krijg je een andere voorstelling
- Kwantielen
We gaan een kwantitatieve datareeks sorteren van klein naar groot en die
gaan we indeling in een aantal gelijke stukken
Percentiles: alles wordt in blokjes van 1% opgedeeld
Harrel-Davis Quantiles (Descriptive)