[Report IV] Program Sederhana Penghitung Kata dengan Menggunakan Spark Scala Shell


Setelah menginstall dan menjalankan Spark di perangkat user, user dapat melakukan analisis data query dengan menggunakan Spark API. Berikut merupakan beberapa command[perintah] untuk membaca data dari sebuah file teks dan memrosesnya. Langkah pertama yang harus dilakukan adalah, menggunakan Spark API untuk menjalankan sebuah program sederhana pengitung kata. Buka Spark Scala Shell, jika anda belum menjalankannya, anda dapat menggunakan command di bawah ini :
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
 
val txtFile = "README.md"
val txtData = sc.textFile(txtFile)
txtData.cache()



Dapat dilihat bahwa digunakan fungsi cache() di dalam command di atas, hal itu berfungsi untuk menyimpan RDD yang telah dibuat ke dalam cache, sehingga Spark tidak perlu untuk melakukan komputasi setiap kali user menggunakan data query di kedepannya. Perlu diperhatikan bahwa cache() merupakan lazy operation. Spark tidak secara langsung menyimpan data dalam memori ketika kita memanggil cache, karena sesungguhnya penyimpanan data baru akan terjadi saat terjadi sebuah aksi terhadap RDD. 

Langkah selanjutnya adalah memanggil fungsi count() untuk menghitung berapa banyak baris yang ada di file teks tersebut dengan menggunakan command :
txtData.count()



Berikut merupakan command yang dapat digunakan jika ingin menampilkan perhitungan kata yang ada. Angka perhitungan akan muncul di samping dari masing-masing kata yang ada di dalam file teks.

val wcData = txtData.flatMap(l => l.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)

wcData.collect().foreach(println)




Setelah program sederhana penghitung kata selesai dibuat, user dapat menghentikan Spark Scala Shell yang sedang berjalan dengan menggunakan command berikut:

:quit


Referensi

Komentar

Postingan Populer