[Report II] Mengenal Apache Spark - Part II
Ekosistem Spark
Selain dari API Inti Spark, ada beberapa library tambahan yang merupakan bagian dari ekosistem Spark dan menyediakan kemampuan tambahan dalam Analisis Big Data dan Area Machine Learning. Beberapa library tambahan tersebut adalah :
- Spark Streaming
- Spark SQL
- Spark MLlib
- Spark GraphX
- BlinkDB
- Tachyon
Arsitektur Spark
Tiga komponen utama dari arsitektur Spark adalah:
- Data Storage
- API
- Resource Management
Resilient Distributed Datasets (RDD)
Resilient Distributed Datasets (RDD) merupakan konsep utama dari framework Spark. RDD dapat diumpamakan sebagai sebuah tabel dalam database yang dapat menampung semua tipe data. Spark menyimpan data dalam RDD dengan partisi yang berbeda. RDD membantu dalam proses pengaturan ulang komputasi dan mengoptimasi dalam pemrosesan data. RDD juga dapat mengetahui bagaimana cara untuk recreate dan recompute dataset yang ada.




Komentar
Posting Komentar