BUSINESS INTELLIGENCE
WERKCOLLEGES
SAM STROO
, BUSINESS INTELLIGENCE – WERKCOLLEGES
DATA EXPLORATIE IN WEKA
INLEIDING
De klasse is best altijd het laatste attribuut
Als het eerst staat moet je het nog manueel instellen
Supervised learning: een klasse bepalen voor nieuwe gegevens aan de hand van testgegevens
waarvoor we de klassen kennen en een algoritme creeeren voor de nieuwe gegevens
Nominaal: classificatieprobleem, als de klasse numeriek is is er een regressieprobleem (vb:
temperatuur voorspellen)
Onze taak: classificatieprobleem
Wij hebben 5 attributen: 4 features en 1 klasse
Voorbeeld: bekijken voor outlook: klasse is play: dus bv bij rainy wordt er meestal niet gespeeld en soms wel,
bij overcast wordt er blijkbaar altijd gespeeld
HOE EEN ATTRIBUUT FILTEREN?
o Attribuut wegfilteren zonder dat de gegevens weg zijn
o via choose > unsupervised attribute filter > remove > je klikt op het veld > geef een index in > klik op
OK end an APPLY
o Ongedaan maken via UNDO
OVERIGE FILTERS
Groepstaak: 0 en 1 direct als good en bad instellen
BESTANDSFORMAAT
o Bekijken op Notepad ++
o Voorafgegaan door procentteken: is allemaal commentaar
o Daarna: verschillende attributen en klasses
CSV BESTANDFORMAAT
Excel bestand ook openen in notepad ++
Belangrijk: attribuut scheiden door een komma
Decimaal teken is een +
Tekst: dubbele aanhalingstekens
WERKCOLLEGES
SAM STROO
, BUSINESS INTELLIGENCE – WERKCOLLEGES
DATA EXPLORATIE IN WEKA
INLEIDING
De klasse is best altijd het laatste attribuut
Als het eerst staat moet je het nog manueel instellen
Supervised learning: een klasse bepalen voor nieuwe gegevens aan de hand van testgegevens
waarvoor we de klassen kennen en een algoritme creeeren voor de nieuwe gegevens
Nominaal: classificatieprobleem, als de klasse numeriek is is er een regressieprobleem (vb:
temperatuur voorspellen)
Onze taak: classificatieprobleem
Wij hebben 5 attributen: 4 features en 1 klasse
Voorbeeld: bekijken voor outlook: klasse is play: dus bv bij rainy wordt er meestal niet gespeeld en soms wel,
bij overcast wordt er blijkbaar altijd gespeeld
HOE EEN ATTRIBUUT FILTEREN?
o Attribuut wegfilteren zonder dat de gegevens weg zijn
o via choose > unsupervised attribute filter > remove > je klikt op het veld > geef een index in > klik op
OK end an APPLY
o Ongedaan maken via UNDO
OVERIGE FILTERS
Groepstaak: 0 en 1 direct als good en bad instellen
BESTANDSFORMAAT
o Bekijken op Notepad ++
o Voorafgegaan door procentteken: is allemaal commentaar
o Daarna: verschillende attributen en klasses
CSV BESTANDFORMAAT
Excel bestand ook openen in notepad ++
Belangrijk: attribuut scheiden door een komma
Decimaal teken is een +
Tekst: dubbele aanhalingstekens