College aantekeningen

Verzamelen, Visualiseren en Analyseren Aantekeningen hoorcolleges

Beoordeling

Verkocht

Pagina's

223

Geüpload op

07-07-2022

Geschreven in

2021/2022

aantekeningen van de hoorcolleges van Verzamelen, Visualiseren en Analyseren, eerstejaars vak Future Planet Studies. Veel over R studio en theorie van statistiek

Instelling

Vak

Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Meld schending auteursrecht

Geschreven voor

Instelling: Universiteit van Amsterdam (UvA)
Studie: Future Planet Studies
Vak: Verzamelen, Visualiseren en Analyseren

Alle documenten voor dit vak (1)

Documentinformatie

Geüpload op: 7 juli 2022
Aantal pagina's: 223
Geschreven in: 2021/2022
Type: College aantekeningen
Docent(en): Emiel van loon
Bevat: Alle colleges

Onderwerpen

statistiek
rstudio
futureplanetstudies
fps
eerstejaars
jaar1
verzamelen
aantekeningen
hoorcolleges
vva
visualiseren en analyseren

Voorbeeld van de inhoud

VVA hoorcollege 1

Ook al ken je causale verband —> als je inputs niet kunt meten kan het nog steeds random proces
zijn.

Random proces of systamitisch proces

Wat is er bijzonder aan bepaalde gegevens —> wijken de getallen af? Is dit random?

Statistiek is ook gemiddelde bijvoorbeeld
Overheid

Programma
- sqrt zonder hoofdletter
- Selecteren van de som en run —> antwoord
- Met enter ook antwoord
- X <- 5 dan geeft het programma x = 5 aan rechterkant
- Als je x +2 dan intypt krijg je als antwoord 7
- Hetzelfde geld voor Y
- Reeks nummers achter elkaar: myvariable <- c(72, -90, 69)
- Dan krijg je als je myvariable*3 alle antwoorden van de getallen keer 3
- NaN —> not a number (bijv wortel kan niet van negatief getal gegeven worden0
- Mean = gemiddelde
- Myvariable2 <- myvariable*2 , dan enter en weer myvariable intypen krijg je waarde er van
- Length, sum kan ook
- [2] is tweede getal in reeks myvariable bijv
- Myvariable > 0 —> enter krijg je true en false
- [Myvariable > 0 ] enter krijg je de nummers waarbij het klopt
- == betekent is gelijk aan, dus 2x =
- ! = betekent niet gelijk aan
- Excel bestand in csv zetten voor importeren
- Import data rechtsboven —> text file —>
- Mean (naam van geïmporteerde bestand) enter —> eenheid achter de naam bijv dollar teken,
en dan de kolom waarvan je het gemiddelde wilt weten
- Datanaam [ 2,5] —> krijg je het getal wat staat als je 2 naar onder gaat en 5 naar rechts
- Om alle getallen te krijgen doe je [ , 5]
- Table (datanaam$gender) dan krijg je aantal mannen bijv en vrouwen
- Alleen females —> datanaam$gender == condition where I want to be it true dit kan door ‘F’
bijvoorbeeld —> dan krijg je true en false ding
- Nieuw dataframe : female <- datanaam [vorige statement namelijk datanaam$gender == ‘F’ , ]
- Femalespeeds <- datanaam$speed[datanaam$gender == ‘F] geen komma want geen frame
-

Werkcollege 1
Hekje en vervolgens bijv antwoord op .. dan wordt dat niet berekend, maar als comment gegeven
Vraagteken en erachter functie —> uitleg van de functie krijg je dan

, • str(): Prints the structure of the dataframe in a compact
way. Each variable name is given (preceded by a $
sign), followed by an indication of the variable type, and
then an example of the contents. The label 'Factor' can
be taken as a synonym for 'Categorical'. The label 'int'
refers to integers: these are numbers without decimals,
and the label 'num' refers to numbers with decimals.
• summary(): Prints for each variable in the data frame a
short overview of the contents. For the categorical
variables, it gives a list of how frequently each category
occurs (up to the first 6 categories, alphabetically
ordered). For the numerical variables, the 5-number
summary and the mean is given.
• head(): Prints the top 6 rows of the dataframe.
• Size:
◦ dim(G) - returns a vector with the number of rows in
the first element, and the number of columns as
the second element (the dimensions of the object)
◦ nrow(G) - returns the number of rows
◦ ncol(G) - returns the number of columns
• Names:
◦ names(G) - returns the column names (synonym of
colnames() for dataframes)
◦ rownames(G) - returns the row names.
The different variables make-up different columns in the
dataframe. You can select a column from a dataframe by
using the $ symbol. The command G$lifeExp means: column
lifeExp from dataframe G. So to copy column lifeExp into a
new variable, the following notation can be used.
lifeExp <- G$lifeExp
The new object created (lifeExp) is not a dataframe
anymore, but a vector with the data for one variable and
consequently also values of one type (numerical data in this

,case). The lifeExp variable also shows-up in the
Environment tab in the upper-right pane (under the section
‘Values').
Dataframes have rows and columns. If you want to extract
specific information from it, you need to specify which rows
and columns you want in between square brackets. Row
numbers come first, followed by column numbers, separated
by a comma. If you don't specify the row number or the
column number all rows or all columns are returned. If you
want multiple rows or columns, you can combine them with
the c() command or use the : command if you want
consecutive rows.
# First element in the first column
G[1,1]
# First element in the 3th column
G[1,3]
# First row
G[1,]
# First column
G[,1]
# First three elements in the 4th column
G[1:3,4]
# Elements from the second row, first and fifth column
G[2,c(1,5)]

The command unique() determines the number of unique
entries in a variable. This can be very useful to find out the
details of large data sets. For the gapminder data it can, for
example, help to find out for how many countries we have
data. To determine the length of a vector you can
furthermore use the command length().

You can also use values of one variable to make selections
from the dataset. For this the logical operators like == can be
used. The following command selects e.g. all rows in G

, which apply to Europe, and subsequently uses the result to
make a subset from the vector country (which is stored in a
new vector countryEurope).

Make a vector with pop data for the year 1962 and the
continent Americas.
Solution
You can do this in a few steps:

1) Select all data for 1962
Save this in a new dataframe G1962.
G1962 <- G[G$year == 1962, ]
The selection between the square brackets means: 1) select
all rows from G for which G$year is 1962 and 2) (after the ,)
use all columns.

2) Select all rows for which the continent is Americas.
The syntax is the same as in the first step, but now uses
G1962 to start with.
G1962_Americas <- G1962[G1962$ continent == "Americas",]

3) Select the column pop
For the third step, select from the dataframe that contains
only data from Americas in 1962 (created in step 2).
G1962_Americas_pop <- G1962_Americas$pop

Rij links
Kollom rechts
[rij,colom]

€7,09

Krijg toegang tot het volledige document:

100% tevredenheidsgarantie

Direct beschikbaar na je betaling

Lees online óf als PDF

Geen vaste maandelijkse kosten

Maak kennis met de verkoper

noortjeee

Maak kennis met de verkoper

noortjeee Universiteit van Amsterdam

Bekijk profiel

Volgen

Verkocht

Lid sinds

4 jaar

Aantal volgers

Documenten

Laatst verkocht

9 maanden geleden

0,0

0 beoordelingen

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper noortjeee. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €7,09. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 45158 samenvattingen verkocht Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Verzamelen, Visualiseren en Analyseren Aantekeningen hoorcolleges

Geschreven voor

Documentinformatie

Onderwerpen

Voorbeeld van de inhoud

Meer vakken binnen Universiteit van Amsterdam (UvA) > Future Planet Studies

Maak kennis met de verkoper

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?