Escrito por estudiantes que aprobaron Inmediatamente disponible después del pago Leer en línea o como PDF ¿Documento equivocado? Cámbialo gratis 4,6 TrustPilot
logo-home
Ensayo

Introduction to Data Pipelines

Puntuación
-
Vendido
-
Páginas
16
Grado
A
Subido en
17-05-2021
Escrito en
2019/2020

This document is an introduction to data pipelines if anything, mostly focusing on Luigi and apache airflow with their similarities and differences. Please only buy this document if you are trying to learn either Luigi or Apache airflow. Or perhaps in a situation where you need to learn about the two.

Mostrar más Leer menos
Institución
Grado

Vista previa del contenido

Statistical Analysis &
Modelling Assignment
2: Data Pipelines
Albert Savill 3505901

,Table of Contents
List of Figures.........................................................................................................................................1
1 Introduction........................................................................................................................................2
1.1 Hadoop Ecosystem.......................................................................................................................2
3 Data Pipeline.......................................................................................................................................3
3.1 Luigi..............................................................................................................................................3
3.2 Airflow.........................................................................................................................................3
3.3 Comparison..................................................................................................................................4
4 Implementation..................................................................................................................................4
4.1 Ubuntu.........................................................................................................................................5
4.1.1 Luigi Installation....................................................................................................................5
4.1.2 Airflow Installation................................................................................................................7
4.2 Command Prompt......................................................................................................................10
4.2.1 Airflow Installation..............................................................................................................10
4.2.2 Luigi Installation..................................................................................................................11
4.3 Interface.....................................................................................................................................12
4.3.1 Luigi.....................................................................................................................................13
4.3.2 Apache-Airflow...................................................................................................................14
Conclusion...........................................................................................................................................15
References...........................................................................................................................................15

List of Figures
- Figure 1: Hadoop Ecosystem architecture design [7]..........................................................................3

- Figure 2: Ubuntu Luigi package installation.........................................................................................5

- Figure 3: Installing Luigi toml..............................................................................................................6

- Figure 4: Installing the bleeding edge code.........................................................................................6

- Figure 5: First steps in Airflow installation...........................................................................................7

- Figure 6: Install apache-airflow results................................................................................................7

- - Figure 7: Airflow initdb installation part 1.........................................................................................8

- Figure 8: Airflow initdb installation part 2..........................................................................................8

- Figure 9: Webserver command...........................................................................................................9

- Figure 10: Scheduler command...........................................................................................................9

- Figure 11: Installing airflow...............................................................................................................10

- Figure 12: Backfill and instance tasks................................................................................................11

1|Page

, - Figure 13: Installing Luigi after airflow...............................................................................................12

- Figure 14: Luigi task status [2]..........................................................................................................13

- Figure 15: Apache-Airflow user interface 1 [6]..................................................................................14

- Figure 16: Showing a DAG in Airflow [6]............................................................................................14




1 Introduction
1.1 Hadoop Ecosystem
Hadoop Ecosystem is an open-source workspace where its goal is to simplify big data projects and
problems. Hadoop itself is a series of different modules made into one huge framework which creates
an ecosystem of technology and software that is used to handle big data [7]. Main tasks that can be
seen featured in a Hadoop ecosystem is where it takes data and analyses, absorbs, stores, and
maintains that data.




2|Page

Escuela, estudio y materia

Institución
Estudio
Grado

Información del documento

Subido en
17 de mayo de 2021
Número de páginas
16
Escrito en
2019/2020
Tipo
ENSAYO
Profesor(es)
Desconocido
Grado
A

Temas

$17.48
Accede al documento completo:

¿Documento equivocado? Cámbialo gratis Dentro de los 14 días posteriores a la compra y antes de descargarlo, puedes elegir otro documento. Puedes gastar el importe de nuevo.
Escrito por estudiantes que aprobaron
Inmediatamente disponible después del pago
Leer en línea o como PDF

Conoce al vendedor
Seller avatar
savilla1110

Conoce al vendedor

Seller avatar
savilla1110 I hop
Seguir Necesitas iniciar sesión para seguir a otros usuarios o asignaturas
Vendido
1
Miembro desde
4 año
Número de seguidores
1
Documentos
0
Última venta
4 año hace

0.0

0 reseñas

5
0
4
0
3
0
2
0
1
0

Documentos populares

Recientemente visto por ti

Por qué los estudiantes eligen Stuvia

Creado por compañeros estudiantes, verificado por reseñas

Calidad en la que puedes confiar: escrito por estudiantes que aprobaron y evaluado por otros que han usado estos resúmenes.

¿No estás satisfecho? Elige otro documento

¡No te preocupes! Puedes elegir directamente otro documento que se ajuste mejor a lo que buscas.

Paga como quieras, empieza a estudiar al instante

Sin suscripción, sin compromisos. Paga como estés acostumbrado con tarjeta de crédito y descarga tu documento PDF inmediatamente.

Student with book image

“Comprado, descargado y aprobado. Así de fácil puede ser.”

Alisha Student

Preguntas frecuentes