[Report II] Mengenal Apache Spark

April 21, 2017

[Report II] Mengenal Apache Spark - Part II

Ekosistem Spark

Selain dari API Inti Spark, ada beberapa library tambahan yang merupakan bagian dari ekosistem Spark dan menyediakan kemampuan tambahan dalam Analisis Big Data dan Area Machine Learning. Beberapa library tambahan tersebut adalah :

Spark Streaming
Spark SQL
Spark MLlib
Spark GraphX
BlinkDB
Tachyon

Arsitektur Spark

Tiga komponen utama dari arsitektur Spark adalah:

Data Storage

Spark menggunakan HDFS File Sistem untuk tujuan penyimpanan data. Dengan memberlakukan sistem tersebut memungkinkan Spark untuk berjalan di semua jenis Hadoop seperti HDFS, HBase, Cassandra, dll

API dalam Spark memungkinkan pengguna untuk membuat sebuah aplikasi berbasis Spark dengan menggunakan interface API pada umumnya. Spark menyediakan API untuk bahasa pemrograman Scala, Java, dan Phyton

Resource Management

Spark dapat dikembangkan menjadi sebuah server stand-alone atau dapat menjadi sebuah framework komputasi terdistribusi seperti Mesos atau YARN

Resilient Distributed Datasets (RDD)

Resilient Distributed Datasets (RDD) merupakan konsep utama dari framework Spark. RDD dapat diumpamakan sebagai sebuah tabel dalam database yang dapat menampung semua tipe data. Spark menyimpan data dalam RDD dengan partisi yang berbeda. RDD membantu dalam proses pengaturan ulang komputasi dan mengoptimasi dalam pemrosesan data. RDD juga dapat mengetahui bagaimana cara untuk recreate dan recompute dataset yang ada.

Referensi

Cari Blog Ini

Blogging?