100% tevredenheidsgarantie Direct beschikbaar na je betaling Lees online óf als PDF Geen vaste maandelijkse kosten 4.2 TrustPilot
logo-home
College aantekeningen

Hoorcollege aantekeningen Statistiek voor Bedrijfskunde

Beoordeling
-
Verkocht
-
Pagina's
21
Geüpload op
22-06-2024
Geschreven in
2023/2024

Aantekeningen van hoorcolleges van Statistiek voor Bedrijfskunde aan de VU.











Oeps! We kunnen je document nu niet laden. Probeer het nog eens of neem contact op met support.

Documentinformatie

Geüpload op
22 juni 2024
Aantal pagina's
21
Geschreven in
2023/2024
Type
College aantekeningen
Docent(en)
Andre lucas
Bevat
Alle colleges

Onderwerpen

Voorbeeld van de inhoud

Colleges Statistiek voor Bedrijfskunde:
Hoorcollege 7 februari 2023:
Statistiek nodig om weloverwogen beslissingen te nemen. Denk aan influencers die kijkgedrag
analyseren op basis van statistiek.

Drie tentamens:
- 2 midterms. Week 4 en 6.
- 1 schriftelijk. Week 8.
Elke week mogelijkheid om al punten bij te sprokkelen door participatiequizzes. Staat anderhalve dag
open. Mag zelf kiezen wanneer je die maakt. Zodra je begint heb je x tijd: verschilt per week. Gaat
over het materiaal van die week. Voornamelijk de sommen van vrijdag.
Vijf vragen. Iedere vraag één punt. In totaal mogelijk 30 punten, 20 goed dan krijg je een heel
participatiepunt.

Testmogelijkheid voor participatiequiz. Zo vaak oefenen als je wilt.
Maximale kans voor behalen: opgaven voor vrijdag maken, oefentest en dan echte participatiequiz.

R = supergeavanceerde excel. Data analyseren in R. = donderdag.
Vrijdag = sommen maken. Vergelijkbaar met tentamen.

Dit vak is geen wiskundig vak. Zeker niet als wiskunde voor bedrijfskunde. In week drie wordt het
voor veel moeilijker: beslissingen nemen op basis van statistiek; filosofisch (op basis van statistiek
kan je nooit iets zeker weten; altijd een kans dat je fout zit). Gewoon blijven doen. Snap je dat? Dan
hoef je je niet druk te maken voor het tentamen.

Statistiek werkt met data en gegevens. Welke soorten gegevens zijn er?

Start hoorcollege:
De gegevens worden in een datamatrix of dataframe gezet (denk aan excel sheet). Matrix met alle
metingen daarin. Volgorde van cases maakt niet uit. Maar wel goed geordend:
- Kolommen = variabelen (kunnen een identificerende naam hebben zoals views).
- Rijen = individuen/bedrijven/cases (kunnen een identificerende naam hebben zoals IZ68j2J_GOM.)
- Cellen = waarnemingen van een variabele voor dat specifieke individu/bedrijf/case.

Eigenlijk is de eerste kolom altijd: ID.

Gegevens zijn er in verschillende soorten en met verschillende meetniveaus.

Categorieën van variabelen:
- Categorische variabelen: alles met tekst. Kwalitatief.
o Verbaal: letters. Bijv. ‘categorie naam’.
o Gecodeerde tekst. ‘Categorie ID’ als cijfer kan dit zijn: bijvoorbeeld 2 staat voor
comedy. Dus kortere beschrijving van een verbaal iets. Maar denk bijvoorbeeld ook
aan datum.*
- Numerieke variabelen: alles met cijfers. Kwantitatief.
o Discreet: aantal studenten in de zaal, aantal doelpunten in wedstrijd.
o Continu: tijd tussen aankoop van twee aandelen, wachttijd patiënten, wisselkoers.
Discreet aantal milliseconden? Dat zien we dan toch aan continu.

,Je kan niet met iedere variabele alles uitvoeren. Je kunt niet elke actie met zomaar een meetniveau
uitvoeren. Dus daarom nodig dat je de variabelen kunt categoriseren. Numerieke variabelen kunnen
bij elkaar opgeteld worden, categorische variabelen niet.

* Nominale of ordinale categorieën vervangen door getallen bijv. heel klein = 1. R doet dit
automatisch voor je met het commando: factor(variable_name).
Codering heeft geen invloed op het type variabele: als het een categorische variabele was dan blijft
dat zo.
Voeg metagegevens toe aan je dataset, d.w.z. een vocabulaire met alle variabele beschrijvingen en
coderingsschema’s. Maak de meta-gegevens beschikbaar. Maak een goed .Rmd file in R.

Meetniveau:
Elke variabele is een nominale variabelen; frequentie van bepalen. Sommige nominale variabelen zijn
ook ordinaal: zit een volgorde in. Sommige ordinale variabelen hebben een intervalschaal: de
afstand tussen twee verschillende metingen heeft dezelfde interpretatie (denk aan: agree, stronglee
disagree schalen). Sommige intervalschaalvariabelen hebben ook nog weer een ratioschaal: er is een
nulwaarde waar niemand over kan twisten, je kan er niet onder komen (denk aan: 0 keer per jaar
naar de tandarts gaan, leeftijd, aantal views, lengte).

Ratioschaal: aftrekken, optellen, delen.
Intervalschaal: aftrekken en optellen.
Iedere schaal komt met meer dingen die je kan doen.

Ontbrekende waarden (missing values) zijn typisch voor empirische gegevens. Voorbeeld: persoon i
heeft zijn inkomen of geslacht niet ingevuld om privacyredenen.
Ontbrekende gegevens zijn vaak gecodeerd in data (bijv. blanco, 0, 99, NaN…). Wanneer je gegevens
inleest, zorg er dan voor dat je de ontbrekende data op NA zet in R, anders maak je ernstige fouten.
Ontbrekende waarden kunnen bij statistische analyse op verschillende manieren worden behandeld:
- Ontbrekende gevallen verwijderen: gemakkelijk, maar je verliest informatie.
- Imputatie: bijvoorbeeld:
o Door het gemiddelde inkomen in te vullen als het inkomen ontbreekt.
o Door de meest voorkomende videocategorie in te vullen (indien categorie
ontbreekt).
Hierdoor blijven meer waarnemingen/gevallen behouden, maar dit hangt ook af van de
juistheid van de veronderstellingen.

Wegvallen van data kan ervoor zorgen dat je conclusie niet klopt. Afhankelijk van je
onderzoeksvraag.
Oplossingen daadwerkelijk toepassen: zodat je kan zien wat het qua conclusie doet.

Populatie versus steekproef:
Populatie: alle individuen bij elkaar waar je het over wilt hebben.
Onderzoek naar inkomen van studenten. Je kan niet de hele populatie studenten vragen. Dus je
neemt een steekproef aan studenten. Het feit dat je een steekproef neemt, zorgt voor toeval.
De populatie is de verzameling van alle mogelijke datapunten: we willen graag alles weten over de
populatie, maar we hebben de populatie (bijna) nooit.
Een steekproef is een deelverzameling van gegevens uit de populatie. We gebruiken de steekproef
om iets af te leiden over de populatie.

, Een steekproef heeft altijd een aspect van willekeurigheid in zich: het had een andere steekproef
kunnen zijn. Hier komt het element van statistische analyse om de hoek kijken:
- Nodig: een model om te beschrijven wat de steekproef had kunnen zijn (gegeven de
eigenschappen van de populatie en van hoe we de steekproef hebben genomen).
- Nodig: technieken om de mogelijke modeluitkomsten te confronteren met de werkelijke
waarnemingen.
- Als de waarnemingen in strijd zijn met het model, concluderen wij dat het model (de theorie)
door de gegevens wordt verworpen.

Statistiek helpt ons een model te bouwen om te beoordelen wanneer een of meer van deze
uitkomsten verrassend afwijkend zijn.

Samenvatten van gegevens:
Gegevens samenvatten = informatie verliezen. Waarom zou je dat willen? Om de essentiële
gegevenskenmerken in een oogopslag te zien én om interessante onderzoeksvragen te
beantwoorden. Hoe?
- In een getal of een paar getallen (descriptief) of een tabel met getallen.
- In een goed plaatje (vaak overtuigender en sneller te begrijpen).

- Voor categorische variabelen:
Welke samenvattingen je maakt, hangt af van de onderzoeksvragen die je in gedachten hebt:
▪ Wat is het dominante type onder populaire video’s?
▪ Hebben Duitsland en Korea dezelfde voorkeuren voor populaire
videocategorieën?
o Grafieken: let op wat je op de assen z(i)et. Taartdiagrammen, staafdiagrammen.
o Kengetallen: proportie = aantal waarnemingen / totaal aantal cases. Bijvoorbeeld:
aantal muziekvideo’s / totaal aantal video’s. Percentage in steekproef.
Voor steekproefgrootheden gebruiken we gewone letters zoals p, maar voor
populatiegrootheden gebruiken we Griekse letters.
Wij zijn geïnteresseerd in uitspraken over het populatiepercentage, maar we
observeren alleen het steekproefpercentage.

- Voor numerieke variabelen:
Welke samenvattingen je maakt, hangt af van de onderzoeksvragen die je in gedachten hebt:
▪ Hoeveel dagen moet je wachten voordat een geplaatste video populair
wordt?
▪ Wat is het aantal dagen waarna je het kunt opgeven dat je video ooit nog
populair zal worden?
o Grafieken: histogrammen en boxplots. (in één oogopslag)
▪ Boxplots: in het midden de mediaan (middelste); heeft een doos die IQR
(afstand tussen eerste en derde kwartiel) bevat.
▪ Bij grote spreiding ben je onzekerder over waar de uitkomst gaat liggen.
▪ Uitschieters duidelijk zichtbaar via boxplots.

Scheefheid is een maat voor asymmetrie. Voornamelijk gebruikt om afwijkingen van normaliteit of
symmetrie te meten; voor normale verdeling geldt: scheefheid is 0.
€5,86
Krijg toegang tot het volledige document:

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
LoisCavis Universiteit van Amsterdam
Bekijk profiel
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
26
Lid sinds
6 jaar
Aantal volgers
13
Documenten
76
Laatst verkocht
5 maanden geleden

0,0

0 beoordelingen

5
0
4
0
3
0
2
0
1
0

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen