1
Samenvatting DSAI theorie
Hoofdstuk 1: Basisbegrippen, steekproefonderzoek....................................................................................2
Hoofdstuk 1: python.....................................................................................................................................4
Hoofdstuk 2: Analyse van 1 variabele...........................................................................................................8
Hoofdstuk 2: python...................................................................................................................................12
Hoofdstuk 3.1: Kansrekening, de centrale limietstelling, statistische toetsen............................................17
Hoofdstuk 3.1: python................................................................................................................................23
Hoofdstuk 3.2: Hypothesetoetsen..............................................................................................................26
Hoofdstuk 3.2: python................................................................................................................................31
Hoofdstuk 4: Analyse van 2 kwalitatieve variabelen...................................................................................34
Hoofdstuk 4: python...................................................................................................................................39
Hoofdstuk 5: Analyse van 2 variabelen: kwalitatief vs kwantitatief............................................................42
Hoofdstuk 5: python...................................................................................................................................47
Hoofdstuk 6: Analyse van 2 kwantitatieve variabelen................................................................................51
Hoofdstuk 6: python...................................................................................................................................55
Hoofdstuk 7: Tijdserie-analyse....................................................................................................................63
Hoofdstuk 7: python...................................................................................................................................67
Random.......................................................................................................................................................86
, 2
Hoofdstuk 1: Basisbegrippen,
steekproefonderzoek
The scientific method
Wat zijn de doelstellingen van de wetenschappelijke methode?
Gebaseerd op empirische validering zijn we geïnteresseerd in:
o Exploration
o Description
o Prediction
o Verification
The Research Process – stappen
1) Probleemstelling: wat is de onderzoeksvraag?
2) Exacte informatiebehoefte: wat moet er juist gemeten worden?
3) Research: doe onderzoek adhv simulaties, expirimenten, enquêtes, …
4) Data verwerken
5) Data analyseren
6) Conclusies
Basic concepts in Research
Variables & values
Variable: algemene eigenschap v/h object
Value: specifieke eigenschap v/h object
Meetniveaus / types variabelen (van elk de kenmerken & voorbeeld geven)
Kwalitatieve meetniveaus (moet niet perse numeriek zijn, beperkt aantal waarden)
o Nominaal: categorieën
Bv geslacht, ras, land
o Ordinaal: volgorde / ranking
Bv hoe oud ge zijt, uw rang int leger, level van educatie, score op 10, …
Kwantitatieve meetniveaus (numeriek, veel verschillende waarden)
o Interval: er is geen specifiek nulpunt geen proporties
Bv °C, °F, … kan negatief zijn
o Ratio: er is een specifiek nulpunt proporties
Bv Kelvin, afstand in meter, gewicht in kg, … kan niet negatief zijn
Relaties tussen variabelen
Causal relationships:
o 1 variabele heeft een effect op de andere
o De Cause is de onafhankelijke variabele
o De Consequence is de afhankelijke variabele
o Niet elke relatie is causal!
, 3
Sample Testing
Sample & population
Populatie: de verzameling van alle objecten dat je wilt analyseren (de dataset dus)
Sample/steekproef: een deel v/d verzameling
o Onder voorwaarden zijn de resultaten v/d sample vergelijkbaar voor de populatie
Sampling method
Hoe kies je de elementen uit?
Random sample: elk element uit de sample heeft evenveel kans om gekozen te worden
o (=Aselecte steekproef)
Non-random sample: bepaalde elementen hebben een grotere kans om gekozen te worden
o (=selecte steekproef)
o Meestal niet representatief, omda ge zelf ewa kiest wa er in uw sample zit
Sampling errors
Accidental sampling errors:
o Puur toeval
Systematic sampling errors:
o Bv online survey: mensen zonder internet worden uitgezonderd
o Bv vrijwillige survey: enkel mensen die geïnteresseerd zijn doen mee
o …
Non-sampling errors
Accidental non-sampling errors:
o Bv perongeluk het verkeerde antwoord aangeduid
Systematic non-sampling errors:
o Bv het measuring equipment dat niet goed gekalibreerd is
o Bv de mensen liegen
o Bv gij hebt een effect op de mensen waardoor ze niet eerlijk reageren enz
, 4
Hoofdstuk 1: python
Packages
import numpy as np # "Scientific computing"
import scipy.stats as stats # Statistical tests
import pandas as pd # Data Frame
from pandas.api.types import CategoricalDtype
import matplotlib.pyplot as plt # Basic visualisation
from statsmodels.graphics.mosaicplot import mosaic # Mosaic diagram
import seaborn as sns # Advanced data visualisation
import altair as alt # Alternative visualisation system
Datasets
Dataset lezen
titanic =
pd.read_csv('https://raw.githubusercontent.com/DataRepo2019/Data-
files/master/titanic.csv')
soms moet ge het scheidingsteken zelf zeggen:
o android = pd.read_csv(linkblabla.csv', sep=';')
of via google drive: (zien wa erin zit: !ls)
o from google.colab import drive
#drive koppelen om eraan te kunnen
drive.mount('/content/drive/')
ais = pd.read_csv('/content/drive/MyDrive/DSAI/data/ais.csv')
Eerste / laatste entries weergeven
titanic.head(10)
titanic.tail(10)
Eigenschappen dataset
Algemene eigenschappen v/d dataset: titanic.info() OF titanic.describe()
Aantal rijen: len(titanic)
Aantal kolommen: len(titanic.columns)
Aantal rijen & kolommen: titanic.shape
Datatypes van elke kolom: titanic.dtypes
Aantal kolommen van elk datatype: titanic.dtypes.value_counts()
Eigenschappen van een datatype: titanic.Survived.describe()
o Of natuurlijk titanic[‘Survived’].describe()
Unieke/verschillende values van kwalitatieve variabelen: titanic.Embarked.unique()
o Geeft de mogelijke waarden weer voor Embarked: [‘S’ ‘C’ ‘Q’ nan]
Indices
Als er een ‘ID kolom’ is, moet je deze dan ook markeren als index
o titanic.set_index([‘PassengerId’])
Samenvatting DSAI theorie
Hoofdstuk 1: Basisbegrippen, steekproefonderzoek....................................................................................2
Hoofdstuk 1: python.....................................................................................................................................4
Hoofdstuk 2: Analyse van 1 variabele...........................................................................................................8
Hoofdstuk 2: python...................................................................................................................................12
Hoofdstuk 3.1: Kansrekening, de centrale limietstelling, statistische toetsen............................................17
Hoofdstuk 3.1: python................................................................................................................................23
Hoofdstuk 3.2: Hypothesetoetsen..............................................................................................................26
Hoofdstuk 3.2: python................................................................................................................................31
Hoofdstuk 4: Analyse van 2 kwalitatieve variabelen...................................................................................34
Hoofdstuk 4: python...................................................................................................................................39
Hoofdstuk 5: Analyse van 2 variabelen: kwalitatief vs kwantitatief............................................................42
Hoofdstuk 5: python...................................................................................................................................47
Hoofdstuk 6: Analyse van 2 kwantitatieve variabelen................................................................................51
Hoofdstuk 6: python...................................................................................................................................55
Hoofdstuk 7: Tijdserie-analyse....................................................................................................................63
Hoofdstuk 7: python...................................................................................................................................67
Random.......................................................................................................................................................86
, 2
Hoofdstuk 1: Basisbegrippen,
steekproefonderzoek
The scientific method
Wat zijn de doelstellingen van de wetenschappelijke methode?
Gebaseerd op empirische validering zijn we geïnteresseerd in:
o Exploration
o Description
o Prediction
o Verification
The Research Process – stappen
1) Probleemstelling: wat is de onderzoeksvraag?
2) Exacte informatiebehoefte: wat moet er juist gemeten worden?
3) Research: doe onderzoek adhv simulaties, expirimenten, enquêtes, …
4) Data verwerken
5) Data analyseren
6) Conclusies
Basic concepts in Research
Variables & values
Variable: algemene eigenschap v/h object
Value: specifieke eigenschap v/h object
Meetniveaus / types variabelen (van elk de kenmerken & voorbeeld geven)
Kwalitatieve meetniveaus (moet niet perse numeriek zijn, beperkt aantal waarden)
o Nominaal: categorieën
Bv geslacht, ras, land
o Ordinaal: volgorde / ranking
Bv hoe oud ge zijt, uw rang int leger, level van educatie, score op 10, …
Kwantitatieve meetniveaus (numeriek, veel verschillende waarden)
o Interval: er is geen specifiek nulpunt geen proporties
Bv °C, °F, … kan negatief zijn
o Ratio: er is een specifiek nulpunt proporties
Bv Kelvin, afstand in meter, gewicht in kg, … kan niet negatief zijn
Relaties tussen variabelen
Causal relationships:
o 1 variabele heeft een effect op de andere
o De Cause is de onafhankelijke variabele
o De Consequence is de afhankelijke variabele
o Niet elke relatie is causal!
, 3
Sample Testing
Sample & population
Populatie: de verzameling van alle objecten dat je wilt analyseren (de dataset dus)
Sample/steekproef: een deel v/d verzameling
o Onder voorwaarden zijn de resultaten v/d sample vergelijkbaar voor de populatie
Sampling method
Hoe kies je de elementen uit?
Random sample: elk element uit de sample heeft evenveel kans om gekozen te worden
o (=Aselecte steekproef)
Non-random sample: bepaalde elementen hebben een grotere kans om gekozen te worden
o (=selecte steekproef)
o Meestal niet representatief, omda ge zelf ewa kiest wa er in uw sample zit
Sampling errors
Accidental sampling errors:
o Puur toeval
Systematic sampling errors:
o Bv online survey: mensen zonder internet worden uitgezonderd
o Bv vrijwillige survey: enkel mensen die geïnteresseerd zijn doen mee
o …
Non-sampling errors
Accidental non-sampling errors:
o Bv perongeluk het verkeerde antwoord aangeduid
Systematic non-sampling errors:
o Bv het measuring equipment dat niet goed gekalibreerd is
o Bv de mensen liegen
o Bv gij hebt een effect op de mensen waardoor ze niet eerlijk reageren enz
, 4
Hoofdstuk 1: python
Packages
import numpy as np # "Scientific computing"
import scipy.stats as stats # Statistical tests
import pandas as pd # Data Frame
from pandas.api.types import CategoricalDtype
import matplotlib.pyplot as plt # Basic visualisation
from statsmodels.graphics.mosaicplot import mosaic # Mosaic diagram
import seaborn as sns # Advanced data visualisation
import altair as alt # Alternative visualisation system
Datasets
Dataset lezen
titanic =
pd.read_csv('https://raw.githubusercontent.com/DataRepo2019/Data-
files/master/titanic.csv')
soms moet ge het scheidingsteken zelf zeggen:
o android = pd.read_csv(linkblabla.csv', sep=';')
of via google drive: (zien wa erin zit: !ls)
o from google.colab import drive
#drive koppelen om eraan te kunnen
drive.mount('/content/drive/')
ais = pd.read_csv('/content/drive/MyDrive/DSAI/data/ais.csv')
Eerste / laatste entries weergeven
titanic.head(10)
titanic.tail(10)
Eigenschappen dataset
Algemene eigenschappen v/d dataset: titanic.info() OF titanic.describe()
Aantal rijen: len(titanic)
Aantal kolommen: len(titanic.columns)
Aantal rijen & kolommen: titanic.shape
Datatypes van elke kolom: titanic.dtypes
Aantal kolommen van elk datatype: titanic.dtypes.value_counts()
Eigenschappen van een datatype: titanic.Survived.describe()
o Of natuurlijk titanic[‘Survived’].describe()
Unieke/verschillende values van kwalitatieve variabelen: titanic.Embarked.unique()
o Geeft de mogelijke waarden weer voor Embarked: [‘S’ ‘C’ ‘Q’ nan]
Indices
Als er een ‘ID kolom’ is, moet je deze dan ook markeren als index
o titanic.set_index([‘PassengerId’])