DATABANKEN 3: SPARK
Lincy De Groote
, What is Big Data?
The three V’s of Big Data
Velocity:
o Snelheid is belangrijk
o We willen weten op welk exact moment een traffic jam voorkomt
Variaty:
o Data kan van alle types zijn: video, geluid, foto’s en tekst data
Volume:
o De kwantiteit van de gegenereerde en opgeslagen data
o De grootte bepaald of het big data is of niet
What is Hadoop?
An open source software framework dedicated for processing big
data
Apache Hadoop is een open source software framework toegewijd om
o Distributed (gedistribueerd)
o Fault-tolerant (fout-tolererend)
Opslag en proccesing van big data gebruik makend van MapReduce protocol
Het runt een cluster op computers die bestaan uit commodity hardware
Hadoop cluster terminology
Een cluster: is een groep van computers die samen werken
o Zorgt voor data opslag, data processing en recource management
Een node: is een individuele computer in een cluster
o Master nodes managen de distributie van het werk en de data naar werker nodes
Een daemon: is een programma die runt op een node
o Elke daemon levert iets anders op een cluster
Distributed processing with hadoop
Lincy De Groote
, What is Big Data?
The three V’s of Big Data
Velocity:
o Snelheid is belangrijk
o We willen weten op welk exact moment een traffic jam voorkomt
Variaty:
o Data kan van alle types zijn: video, geluid, foto’s en tekst data
Volume:
o De kwantiteit van de gegenereerde en opgeslagen data
o De grootte bepaald of het big data is of niet
What is Hadoop?
An open source software framework dedicated for processing big
data
Apache Hadoop is een open source software framework toegewijd om
o Distributed (gedistribueerd)
o Fault-tolerant (fout-tolererend)
Opslag en proccesing van big data gebruik makend van MapReduce protocol
Het runt een cluster op computers die bestaan uit commodity hardware
Hadoop cluster terminology
Een cluster: is een groep van computers die samen werken
o Zorgt voor data opslag, data processing en recource management
Een node: is een individuele computer in een cluster
o Master nodes managen de distributie van het werk en de data naar werker nodes
Een daemon: is een programma die runt op een node
o Elke daemon levert iets anders op een cluster
Distributed processing with hadoop