Essay

DSA-paper regressie analayse

Rating

Sold

Pages

Grade

8-9

Uploaded on

15-10-2022

Written in

2021/2022

In deze paper staat een regressieanalyse centraal. Het doel van deze paper is het ontwikkelen van een model die het mogelijk maakt om de omzet van een taxionderneming te voorspellen. In de paper werk ik onder andere het volgende uit: De V's van Big data, het model van Gartner, de Wisdom Pyramid, de audit comfort cycle, de Bias-Variance trade-off. In de bijlage heb ik alle codes die ik in R heb toegepast opgenomen. De codes zijn voorzien van een korte toelichting zodat duidelijk is waarom ik de specifieke code heb gebruikt.

Show more Read less

Institution

Module

Whoops! We can’t load your doc right now. Try again or contact support.

Report Copyright Violation

Written for

Institution: Nyenrode Business Universiteit (Nyenrode)
Study: Accountancy
Module: Data Science In Auditing

All documents for this subject (11)

Document information

Uploaded on: October 15, 2022
Number of pages: 37
Written in: 2021/2022
Type: Essay
Professor(s): Unknown
Grade: 8-9

Subjects

regressie anlayse
taxi

Content preview

NY Taxi omzet
voorspellen
Data-analyse in de audit praktijk

Student: Tim van der Weiden
Studentnummer: 000476290
Universiteit: Nyenrode Business Universiteit
Vak: Data Science in Auditing
Datum: 17-06-2022
Aantal woorden: 4.985

,Inhoudsopgave
1. Inleiding ......................................................................................................................................................... 3
1.1 Inleiding ................................................................................................................................................. 3
1.2 Onderzoeksvraag ................................................................................................................................... 3

2. Dataset ............................................................................................................................................................ 4
2.1 Inlezen dataset ....................................................................................................................................... 4
2.2 Beschrijving van de variabelen ............................................................................................................. 4
2.3 Descriptives ........................................................................................................................................... 4
2.4 Analyse in R ........................................................................................................................................... 5

3. Theorie ........................................................................................................................................................... 6
3.1 Relevantie in de audit context ................................................................................................................ 6
3.2 Aard analyse .......................................................................................................................................... 6
3.3 De V’s van big data ............................................................................................................................... 7
3.4 Gartner .................................................................................................................................................. 8
3.5 Inductief vs. deductief ............................................................................................................................ 9
3.6 Audit comfort cycle ................................................................................................................................ 9
3.7 ‘Push left’-principe .............................................................................................................................. 10
3.8 Bias-Variance trade-off ....................................................................................................................... 10

4. Data-analyse................................................................................................................................................. 12
4.1 Kenmerken van de analyse .................................................................................................................. 12
4.2 Resultaten van de analyse.................................................................................................................... 13
4.3 Risico’s van de analyse........................................................................................................................ 15
4.4 Conclusie ............................................................................................................................................. 16

Bibliografie ............................................................................................................................................................ 17

Appendix A ............................................................................................................................................................ 18

Appendix B ............................................................................................................................................................ 24

Appendix C ............................................................................................................................................................ 37

2

, 1. Inleiding
1.1 Inleiding
Deze paper is geschreven ter afsluiting van het vak Data Science in Auditing dat deel
uitmaakt van de Master of Science in Accountancy aan Nyenrode Business Universiteit. Het
doel van dit vak is om stil te staan bij de recente ontwikkelingen op het gebied van data-
analyse in de audit praktijk. Data-analyse krijgt bij de grotere kantoren in Nederland steeds
meer aandacht. Speciale afdelingen zijn opgericht ten einde tools te ontwikkelen die gebruikt
kunnen worden bij de controle van jaarrekeningen. Enerzijds kan Data-analyse gebruikt
worden om een beter begrip te krijgen van de cliënt, haar processen en haar omgeving.
Anderzijds kan data-analyse bijdragen aan het verkrijgen van zekerheid bij bepaalde
werkzaamheden (NBA, 2019). Hieruit blijkt dat data-analyse in meerdere stadia van de
controle toepasbaar is.

1.2 Onderzoeksvraag
In deze paper staat een data-analyse centraal. De data-analyse wordt gebruikt om een
vraagstuk vanuit de audit praktijk te beantwoorden. De dataset die is gebruikt bevat de
gegevens van taxiritten in New York uit de periode 2008 tot en met 2021. Aan de hand van
deze dataset zal een regressiemodel worden opgesteld waarmee de prijs van een taxirit
geschat/voorspeld kan worden. In de controlepraktijk kan dit model worden gebruikt om de
omzet van een uitbater van taxi’s in New York te voorspellen en dit te vergelijken met de
omzet zoals gepresenteerd in de jaarrekening.

De onderzoeksvraag die centraal staat luidt als volgt:
“In hoeverre is de prijs van een taxirit te voorspellen op basis van kenmerken van een taxirit?”

3

, 2. Dataset
2.1 Inlezen dataset
De reeds genoemde dataset is verkregen via Kaggle.com. Kaggle is een community voor en
van datawetenschappers waarin onder andere datasets worden gepubliceerd/gedeeld. De
verkregen dataset is ingelezen in R. In Appendix A is het script dat gebruikt is ten behoeve
van deze paper opgenomen. In het script is te zien welke packages zijn gedownload en
opgehaald (via Library) en hoe de dataset is ingelezen. Vervolgens zijn de werkzaamheden en
analyses die in deze paper zijn uitgevoerd zichtbaar in het script. Om redundantie te
voorkomen zijn gehanteerde codes niet in de hoofdtekst van deze paper opgenomen.
Daarnaast is het belangrijk om op te merken dat de totale dataset uit 83.691 observaties
bestaat. Gezien het doel en omvang van deze paper is dit te omvangrijk. Derhalve is besloten
om de eerste 30.000 regels te hanteren. Deze verkorte versie betreft de basis voor deze paper.

2.2 Beschrijving van de variabelen
In R blijkt dat de originele dataset 20 variabelen bevat. Na het runnen van de code om “NA”
waardes te detecteren bleek dat de variabele “ehail_fee” voornamelijk bestond uit dergelijke
waardes. Derhalve is besloten om deze variabele te elimineren uit de dataset. Hiertoe is een
nieuwe dataset aangemaakt. Zie in Appendix B een overzicht van de variabelen die zijn
opgenomen in de dataset. Vanuit de tabel blijkt dat variabelen zijn toegevoegd ten einde een
inschaling van een dag en nacht rit te bewerkstelligen. De code hiervoor is terug te lezen in
Appendix A. Deze toegevoegde variabelen zijn verder niet relevant voor de analyse.

In de regressieanalyse zijn niet alle variabelen betrokken. Of variabelen zijn betrokken is
aangegeven in de rechter kolom van de tabel. Allereerst zijn pick up time en drop off time
vereenvoudigd tot een dag/nacht variabele op basis van de pick up time. Vervolgens is van de
waardes “dag” en “nacht” een dummy variabele gemaakt. De gecreëerde dummy variabele is
eenvoudiger te hanteren in een regressiemodel. Daarnaast kan men vraagtekens zetten bij de
mate van segmentatie van pick up times in het kader van relevantie. Of een taxirit om 8:00 of
08:05 is gestart is minder relevant dan of de taxirit overdag of ’s nachts heeft plaatsgevonden.
De hoge mate van segmentatie schiet het doel van de regressie voorbij, daarom is besloten
niet verder te segmenteren dan dag/nacht.
Voor een nadere toelichting omtrent het elimineren van de overige variabelen wordt verwezen
naar hoofdstuk 4.

2.3 Descriptives
In Appendix B is een overzicht opgenomen met daarin de descriptives van variabelen die als
continue data classificeren. Het begrip continue data houdt in dat de variabelen in principe
elke waarde kunnen aannemen. In deze paper betreffen voorbeelden hiervan de ritafstand en
de totale kosten/prijs van een rit. De overige variabelen betreffen nominale data. Voor deze
variabelen zijn frequentietabellen in Appendix B opgenomen. Dit betreffen variabelen waarbij
slechts enkele waardes mogelijk zijn, bijvoorbeeld het aantal passagiers.
Vanwege de opbouw van de gegevens in de kolommen pick up time en drop off time zijn
geen descriptives opgenomen. Voor elke rit zijn namelijk het jaartal, de maand, de dag, de
uren, de minuten en de secondes opgenomen. Dit is te gesegmenteerd voor een overzichtelijk
descriptive. Tevens is in deze overweging meegenomen dat ten behoeve van de regressie deze
variabelen zijn vereenvoudigd tot een dummy variabele waarvan een frequentietabel is
opgenomen. Tevens zijn de frequentietabellen of descriptives van de variabelen time, hours

4

£7.68

Get access to the full document:

100% satisfaction guarantee

Immediately available after payment

Both online and in PDF

No strings attached

Get to know the seller

Weid01

5.0

(1)

Also available in package deal

Get to know the seller

Weid01 Nyenrode Business Universiteit

View profile

Sold

Member since

8 year

Number of followers

Documents

Last sold

1 month ago

5.0

1 reviews

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their exams and reviewed by others who've used these revision notes.

Didn't get what you expected? Choose another document

No problem! You can straightaway pick a different document that better suits what you're after.

Pay as you like, start learning straight away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

“Bought, downloaded, and smashed it. It really can be that simple.”

Alisha Student

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller Weid01. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for £7.68. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews) 46231 documents were sold in the last 30 days Founded in 2010, the go-to place to buy revision notes and other study material for 15 years now

DSA-paper regressie analayse

Written for

Document information

Subjects

Content preview

More courses for Nyenrode Business Universiteit (Nyenrode) > Accountancy

Also available in package deal

Get to know the seller

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Didn't get what you expected? Choose another document

Pay as you like, start learning straight away

Frequently asked questions

What do I get when I buy this document?

Satisfaction guarantee: how does it work?

Who am I buying these notes from?

Will I be stuck with a subscription?

Can Stuvia be trusted?