[Report II] Mengenal Apache Spark - Part II


Ekosistem Spark

Selain dari API Inti Spark, ada beberapa library tambahan yang merupakan bagian dari ekosistem Spark dan menyediakan kemampuan tambahan dalam Analisis Big Data dan Area Machine Learning. Beberapa library tambahan tersebut adalah :
  • Spark Streaming
  • Spark SQL
  • Spark MLlib
  • Spark GraphX
  • BlinkDB
  • Tachyon

Arsitektur Spark

Tiga komponen utama dari arsitektur Spark adalah:
  • Data Storage
Spark menggunakan HDFS File Sistem untuk tujuan penyimpanan data. Dengan memberlakukan sistem tersebut memungkinkan Spark untuk berjalan di semua jenis Hadoop seperti HDFS, HBase, Cassandra, dll
  • API
API dalam Spark memungkinkan pengguna untuk membuat sebuah aplikasi berbasis Spark dengan menggunakan interface API pada umumnya.  Spark menyediakan API untuk bahasa pemrograman Scala, Java, dan Phyton
  • Resource Management
Spark dapat dikembangkan menjadi sebuah server stand-alone atau dapat menjadi sebuah framework komputasi terdistribusi seperti Mesos atau YARN

Resilient Distributed Datasets (RDD)

Resilient Distributed Datasets (RDD) merupakan konsep utama dari framework Spark. RDD dapat diumpamakan sebagai sebuah tabel dalam database yang dapat menampung semua tipe data. Spark menyimpan data dalam RDD dengan partisi yang berbeda. RDD membantu dalam proses pengaturan ulang komputasi dan mengoptimasi dalam pemrosesan data. RDD juga dapat mengetahui bagaimana cara untuk recreate dan recompute dataset yang ada.

Komentar

Postingan Populer