import pandas as pd
importeren en exporteren
df = pd.read_csv(“location.csv”) Importeert dataset en slaat het op onder de naam df. De
default is hier csv. Heb je een andere delimiter?
Gebruik de sep parameter.
df.to_csv('mijnDataset.csv') Slaat dataset df op als mijnDataset.csv
Beschrijvende functies
df.head() Laat de eerste 5 rijen zien van je dataset.
df.tail() Laat de laatste 5 rijen zien van je dataset.
df.describe() Geeft beschrijvende statistieken van je dataset. Wanneer er een
numerieke kolom aanwezig is in je dataset, zal de beschrijving
uitsluitend op deze kolom gericht zijn.
df.shape Geeft het aantal rijen en kolommen weer.
df.dtypes Geeft aan welke datatypes aanwezig zijn in je dataset.
df.mean() Geeft van iedere numerieke kolom de gemiddelde waarde.
df.median() Geeft van iedere numerieke kolom de mediaan.
df.isnull() Geeft weer welke rijen missende data bevatten.
df.notnull() Geeft weer welke rijen geen missende data bevatten.
df[‘A’].value_counts() Geeft binnen kolom A weer hoeveel er per waarde aanwezig zijn.
df[‘A’].unique() Geeft alle unieke waarden binnen kolom A.
Sorteren van data
df.sort_values(‘A’, Sorteert je dataset op basis van kolom met naam A. Bij de
ascending = True/False) ascending parameter kun je middels True of False aangeven of
je het oplopend wilt of niet.
pd.crosstab(df[‘A’], Creëert een frequentietabel van kolom A in combinatie met
df[‘B’]) kolom B.
Selecteren van data
df.iloc[0,0] Selecteert het element op index positie rij 0 en
kolom 0.
df.loc[‘rijA’,’kolomA’] Selecteert data in rijA en kolomA
df[‘kolomA’] Selecteert kolom met naam ‘A’.
df[df[‘kolomA’] == ‘A’] Filteren door binnen de kolomA te zoeken naar de
string A en alleen de rijen te selecteren die
binnen die voorwaarde vallen.
df[(df[‘kolomA’] == ‘A’) & Het gebruik van meerdere condities om rijen te
(df[‘kolomB’ > 8)] selecteren die voldoen aan de voorwaarden.
df[df[‘kolomA’].isin(['A',B','C'])] Seleceert rijen binnen kolomA wanneer het element
gelijk is aan de string ‘A’, ‘B’ of ‘C’.
School of Data Science
Lulofsstraat 55, Unit 48 | 2521AL, Den Haag
+31 70 221 1586
schoolofdatascience.nl