Geschreven door studenten die geslaagd zijn Direct beschikbaar na je betaling Online lezen of als PDF Verkeerd document? Gratis ruilen 4,6 TrustPilot
logo-home
College aantekeningen

Applied Data Science

Beoordeling
-
Verkocht
-
Pagina's
141
Geüpload op
09-10-2021
Geschreven in
2021/2022

What is data science? With the major technological advances of the last two decades, coupled in part with the internet explosion, a new breed of analysist has emerged. The exact role, background, and skill-set, of a data scientist are still in the process of being defined and it is likely that by the time you read this some of what we say will seem archaic. In very general terms, we view a data scientist as an individual who uses current computational techniques to analyze data. Now you might make the observation that there is nothing particularly novel in this, and subse- quenty ask what has forced the definition.1 After all statisticians, physicists, biologisitcs, finance quants, etc have been looking at data since their respec- tive fields emerged. One short answer comes from the fact that the data sphere has changed and, hence, a new set of skills is required to navigate it effectively. The exponential increase in computational power has provided new means to investigate the ever-growing amount of data being collected every second of the day. What this implies is the fact that any modern data analyst will have to make the time investment to learn computational techniques necessary to deal with the volumes and complexity of the data of today. In addition to those of mathematics and statistics, these software skills are domain transferable and so it makes sense to create a job title that is also transferable. We could also point to the “data hype” created in the industry as a culprit for the term data science with the science creating an aura of validity and facilitating LinkedIn headhunting.

Meer zien Lees minder
Instelling
Vak

Voorbeeld van de inhoud

Applied Data Science




Ian Langmore Daniel Krasner

,2

,Contents

I Programming Prerequisites 1

1 Unix 2
1.1 History and Culture . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 The Shell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Streams . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Standard streams . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Pipes . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Text . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Philosophy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.1 In a nutshell . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.2 More nuts and bolts . . . . . . . . . . . . . . . . . . . 10
1.6 End Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2 Version Control with Git 13
2.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 What is Git . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Setting Up . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Online Materials . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Basic Git Concepts . . . . . . . . . . . . . . . . . . . . . . . . 15
2.6 Common Git Workflows . . . . . . . . . . . . . . . . . . . . . 15
2.6.1 Linear Move from Working to Remote . . . . . . . . . 16
2.6.2 Discarding changes in your working copy . . . . . . . 17
2.6.3 Erasing changes . . . . . . . . . . . . . . . . . . . . . 17
2.6.4 Remotes . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.6.5 Merge conflicts . . . . . . . . . . . . . . . . . . . . . . 18

3 Building a Data Cleaning Pipeline with Python 19
3.1 Simple Shell Scripts . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Template for a Python CLI Utility . . . . . . . . . . . . . . . 21

i

, ii CONTENTS

II The Classic Regression Models 23

4 Notation 24
4.1 Notation for Structured Data . . . . . . . . . . . . . . . . . . 24

5 Linear Regression 26
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2 Coefficient Estimation: Bayesian Formulation . . . . . . . . . 29
5.2.1 Generic setup . . . . . . . . . . . . . . . . . . . . . . . 29
5.2.2 Ideal Gaussian World . . . . . . . . . . . . . . . . . . 30
5.3 Coefficient Estimation: Optimization Formulation . . . . . . 33
5.3.1 The least squares problem and the singular value de-
composition . . . . . . . . . . . . . . . . . . . . . . . . 35
5.3.2 Overfitting examples . . . . . . . . . . . . . . . . . . . 39
5.3.3 L2 regularization . . . . . . . . . . . . . . . . . . . . . 43
5.3.4 Choosing the regularization parameter . . . . . . . . . 44
5.3.5 Numerical techniques . . . . . . . . . . . . . . . . . . 46
5.4 Variable Scaling and Transformations . . . . . . . . . . . . . 47
5.4.1 Simple variable scaling . . . . . . . . . . . . . . . . . . 48
5.4.2 Linear transformations of variables . . . . . . . . . . . 51
5.4.3 Nonlinear transformations and segmentation . . . . . 52
5.5 Error Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.6 End Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6 Logistic Regression 55
6.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.1.1 Presenter’s viewpoint . . . . . . . . . . . . . . . . . . 55
6.1.2 Classical viewpoint . . . . . . . . . . . . . . . . . . . . 56
6.1.3 Data generating viewpoint . . . . . . . . . . . . . . . . 57
6.2 Determining the regression coefficient w . . . . . . . . . . . . 58
6.3 Multinomial logistic regression . . . . . . . . . . . . . . . . . 61
6.4 Logistic regression for classification . . . . . . . . . . . . . . . 62
6.5 L1 regularization . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.6 Numerical solution . . . . . . . . . . . . . . . . . . . . . . . . 66
6.6.1 Gradient descent . . . . . . . . . . . . . . . . . . . . . 67
6.6.2 Newton’s method . . . . . . . . . . . . . . . . . . . . . 68
6.6.3 Solving the L1 regularized problem . . . . . . . . . . . 70
6.6.4 Common numerical issues . . . . . . . . . . . . . . . . 70
6.7 Model evaluation . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.8 End Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

Gekoppeld boek

Geschreven voor

Instelling
Vak

Documentinformatie

Geüpload op
9 oktober 2021
Aantal pagina's
141
Geschreven in
2021/2022
Type
College aantekeningen
Docent(en)
Daniel krasner
Bevat
Alle colleges

Onderwerpen

€7,14
Krijg toegang tot het volledige document:

Verkeerd document? Gratis ruilen Binnen 14 dagen na aankoop en voor het downloaden kun je een ander document kiezen. Je kunt het bedrag gewoon opnieuw besteden.
Geschreven door studenten die geslaagd zijn
Direct beschikbaar na je betaling
Online lezen of als PDF

Maak kennis met de verkoper
Seller avatar
aounabbas

Maak kennis met de verkoper

Seller avatar
aounabbas Exam
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
-
Lid sinds
4 jaar
Aantal volgers
0
Documenten
3
Laatst verkocht
-

0,0

0 beoordelingen

5
0
4
0
3
0
2
0
1
0

Populaire documenten

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen