100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached 4.2 TrustPilot
logo-home
Essay

DSA-paper regressie analayse

Rating
-
Sold
2
Pages
37
Grade
8-9
Uploaded on
15-10-2022
Written in
2021/2022

In deze paper staat een regressieanalyse centraal. Het doel van deze paper is het ontwikkelen van een model die het mogelijk maakt om de omzet van een taxionderneming te voorspellen. In de paper werk ik onder andere het volgende uit: De V's van Big data, het model van Gartner, de Wisdom Pyramid, de audit comfort cycle, de Bias-Variance trade-off. In de bijlage heb ik alle codes die ik in R heb toegepast opgenomen. De codes zijn voorzien van een korte toelichting zodat duidelijk is waarom ik de specifieke code heb gebruikt.

Show more Read less
Institution
Module











Whoops! We can’t load your doc right now. Try again or contact support.

Written for

Institution
Study
Module

Document information

Uploaded on
October 15, 2022
Number of pages
37
Written in
2021/2022
Type
Essay
Professor(s)
Unknown
Grade
8-9

Subjects

Content preview

NY Taxi omzet
voorspellen
Data-analyse in de audit praktijk




Student: Tim van der Weiden
Studentnummer: 000476290
Universiteit: Nyenrode Business Universiteit
Vak: Data Science in Auditing
Datum: 17-06-2022
Aantal woorden: 4.985

,Inhoudsopgave
1. Inleiding ......................................................................................................................................................... 3
1.1 Inleiding ................................................................................................................................................. 3
1.2 Onderzoeksvraag ................................................................................................................................... 3

2. Dataset ............................................................................................................................................................ 4
2.1 Inlezen dataset ....................................................................................................................................... 4
2.2 Beschrijving van de variabelen ............................................................................................................. 4
2.3 Descriptives ........................................................................................................................................... 4
2.4 Analyse in R ........................................................................................................................................... 5

3. Theorie ........................................................................................................................................................... 6
3.1 Relevantie in de audit context ................................................................................................................ 6
3.2 Aard analyse .......................................................................................................................................... 6
3.3 De V’s van big data ............................................................................................................................... 7
3.4 Gartner .................................................................................................................................................. 8
3.5 Inductief vs. deductief ............................................................................................................................ 9
3.6 Audit comfort cycle ................................................................................................................................ 9
3.7 ‘Push left’-principe .............................................................................................................................. 10
3.8 Bias-Variance trade-off ....................................................................................................................... 10

4. Data-analyse................................................................................................................................................. 12
4.1 Kenmerken van de analyse .................................................................................................................. 12
4.2 Resultaten van de analyse.................................................................................................................... 13
4.3 Risico’s van de analyse........................................................................................................................ 15
4.4 Conclusie ............................................................................................................................................. 16

Bibliografie ............................................................................................................................................................ 17

Appendix A ............................................................................................................................................................ 18

Appendix B ............................................................................................................................................................ 24

Appendix C ............................................................................................................................................................ 37




2

, 1. Inleiding
1.1 Inleiding
Deze paper is geschreven ter afsluiting van het vak Data Science in Auditing dat deel
uitmaakt van de Master of Science in Accountancy aan Nyenrode Business Universiteit. Het
doel van dit vak is om stil te staan bij de recente ontwikkelingen op het gebied van data-
analyse in de audit praktijk. Data-analyse krijgt bij de grotere kantoren in Nederland steeds
meer aandacht. Speciale afdelingen zijn opgericht ten einde tools te ontwikkelen die gebruikt
kunnen worden bij de controle van jaarrekeningen. Enerzijds kan Data-analyse gebruikt
worden om een beter begrip te krijgen van de cliënt, haar processen en haar omgeving.
Anderzijds kan data-analyse bijdragen aan het verkrijgen van zekerheid bij bepaalde
werkzaamheden (NBA, 2019). Hieruit blijkt dat data-analyse in meerdere stadia van de
controle toepasbaar is.

1.2 Onderzoeksvraag
In deze paper staat een data-analyse centraal. De data-analyse wordt gebruikt om een
vraagstuk vanuit de audit praktijk te beantwoorden. De dataset die is gebruikt bevat de
gegevens van taxiritten in New York uit de periode 2008 tot en met 2021. Aan de hand van
deze dataset zal een regressiemodel worden opgesteld waarmee de prijs van een taxirit
geschat/voorspeld kan worden. In de controlepraktijk kan dit model worden gebruikt om de
omzet van een uitbater van taxi’s in New York te voorspellen en dit te vergelijken met de
omzet zoals gepresenteerd in de jaarrekening.

De onderzoeksvraag die centraal staat luidt als volgt:
“In hoeverre is de prijs van een taxirit te voorspellen op basis van kenmerken van een taxirit?”




3

, 2. Dataset
2.1 Inlezen dataset
De reeds genoemde dataset is verkregen via Kaggle.com. Kaggle is een community voor en
van datawetenschappers waarin onder andere datasets worden gepubliceerd/gedeeld. De
verkregen dataset is ingelezen in R. In Appendix A is het script dat gebruikt is ten behoeve
van deze paper opgenomen. In het script is te zien welke packages zijn gedownload en
opgehaald (via Library) en hoe de dataset is ingelezen. Vervolgens zijn de werkzaamheden en
analyses die in deze paper zijn uitgevoerd zichtbaar in het script. Om redundantie te
voorkomen zijn gehanteerde codes niet in de hoofdtekst van deze paper opgenomen.
Daarnaast is het belangrijk om op te merken dat de totale dataset uit 83.691 observaties
bestaat. Gezien het doel en omvang van deze paper is dit te omvangrijk. Derhalve is besloten
om de eerste 30.000 regels te hanteren. Deze verkorte versie betreft de basis voor deze paper.

2.2 Beschrijving van de variabelen
In R blijkt dat de originele dataset 20 variabelen bevat. Na het runnen van de code om “NA”
waardes te detecteren bleek dat de variabele “ehail_fee” voornamelijk bestond uit dergelijke
waardes. Derhalve is besloten om deze variabele te elimineren uit de dataset. Hiertoe is een
nieuwe dataset aangemaakt. Zie in Appendix B een overzicht van de variabelen die zijn
opgenomen in de dataset. Vanuit de tabel blijkt dat variabelen zijn toegevoegd ten einde een
inschaling van een dag en nacht rit te bewerkstelligen. De code hiervoor is terug te lezen in
Appendix A. Deze toegevoegde variabelen zijn verder niet relevant voor de analyse.

In de regressieanalyse zijn niet alle variabelen betrokken. Of variabelen zijn betrokken is
aangegeven in de rechter kolom van de tabel. Allereerst zijn pick up time en drop off time
vereenvoudigd tot een dag/nacht variabele op basis van de pick up time. Vervolgens is van de
waardes “dag” en “nacht” een dummy variabele gemaakt. De gecreëerde dummy variabele is
eenvoudiger te hanteren in een regressiemodel. Daarnaast kan men vraagtekens zetten bij de
mate van segmentatie van pick up times in het kader van relevantie. Of een taxirit om 8:00 of
08:05 is gestart is minder relevant dan of de taxirit overdag of ’s nachts heeft plaatsgevonden.
De hoge mate van segmentatie schiet het doel van de regressie voorbij, daarom is besloten
niet verder te segmenteren dan dag/nacht.
Voor een nadere toelichting omtrent het elimineren van de overige variabelen wordt verwezen
naar hoofdstuk 4.

2.3 Descriptives
In Appendix B is een overzicht opgenomen met daarin de descriptives van variabelen die als
continue data classificeren. Het begrip continue data houdt in dat de variabelen in principe
elke waarde kunnen aannemen. In deze paper betreffen voorbeelden hiervan de ritafstand en
de totale kosten/prijs van een rit. De overige variabelen betreffen nominale data. Voor deze
variabelen zijn frequentietabellen in Appendix B opgenomen. Dit betreffen variabelen waarbij
slechts enkele waardes mogelijk zijn, bijvoorbeeld het aantal passagiers.
Vanwege de opbouw van de gegevens in de kolommen pick up time en drop off time zijn
geen descriptives opgenomen. Voor elke rit zijn namelijk het jaartal, de maand, de dag, de
uren, de minuten en de secondes opgenomen. Dit is te gesegmenteerd voor een overzichtelijk
descriptive. Tevens is in deze overweging meegenomen dat ten behoeve van de regressie deze
variabelen zijn vereenvoudigd tot een dummy variabele waarvan een frequentietabel is
opgenomen. Tevens zijn de frequentietabellen of descriptives van de variabelen time, hours



4
£7.68
Get access to the full document:

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached


Also available in package deal

Get to know the seller

Seller avatar
Reputation scores are based on the amount of documents a seller has sold for a fee and the reviews they have received for those documents. There are three levels: Bronze, Silver and Gold. The better the reputation, the more your can rely on the quality of the sellers work.
Weid01 Nyenrode Business Universiteit
Follow You need to be logged in order to follow users or courses
Sold
14
Member since
8 year
Number of followers
7
Documents
11
Last sold
1 month ago

5.0

1 reviews

5
1
4
0
3
0
2
0
1
0

Recently viewed by you

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their exams and reviewed by others who've used these revision notes.

Didn't get what you expected? Choose another document

No problem! You can straightaway pick a different document that better suits what you're after.

Pay as you like, start learning straight away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

Student with book image

“Bought, downloaded, and smashed it. It really can be that simple.”

Alisha Student

Frequently asked questions