Hai bro n sis semua, kali ini gw mau share pengalaman 2 hari ini. Seperti biasa, dikantor selalu disibukan dengan kegiatan mengolah data (selain coding tentunya) dan senin sore hingga rabu pagi ini bener2 dibikin repot menyiapkan data buat pimpinan yg lagi dinas di Turki. Catet yah, yg dines pimpinan ajah, gw mah tetep stay di kantor bareng sama rak rak server dan dokumen debuan :p.

Repotnya gimana ? sumber data buat menghasilkan report yang dipengen pimpinan berjumlah 300jutaan record, dan tiap-tiap recordnya akan dipilah masuk ke kategori mana berdasarkan kriteria tertentu, istilah kerennya clustering. Lalu dikelompokan lagi, tiap-tiap record itu miliknya unit kerja yg mana. Hasil akhirnya bisa diketahui Unit X, punya cluster A sejumlah sekian record, cluster B sekian record terus sampe cluster G. Begitu seterusnya sampe unit-unit laennya.

Byuhhh stresss… Bikin aplikasinya sih lumayan simple lah, sejam kelar, tapi nungguin si aplikasi kelar memproses lebih dari 300juta record itu yg bikin males blon lagi sambil memantau performancenya yg bikin rese. PS : itu sudah dimaksimalkan dengan multi thread, jadi satu aplikasi itu punya 100thread paralel dan paralel proses didatabase sampe 8 node.

Trus kelar gak ? ini yg menarik. Dari hasil monitoring saat proses berjalan, utilitas server hanya tersisa dibawha 10%, bahkan bbrp kali 0,0%, artinya fully occupied. dan setelah bbrp puluh jam crash dengan data yg berhasil diolah sekitar 60%. Tapi pimpinan gak mau tau, pokoknya datanya harus ada buat dia presentasi.

hadoop-database-590x321

Disini yg menarik, ditengah kegentingan karena harus segera menyajikan laporan, seorang atasan yg menyarankan, coba tanya seksi yg udh pake Hadoop sapa tau bisa membantu. Ya udh gw coba jalanin sarannya. Hasilnya ? Saat pengolahan data menggunakan tradisional RDBMS gagal setelah bbrp puluh jam proses, Hadoop berhasil menyelesaikan hanya dalam waktu 59 DETIK. Yups betul, cuman 59s, lalu diolah dikit pake excel biar cantik, jadilah.

Gw pribadi blon ngerti cara memasukan RDBMS ke Hadoop dan cara penggunaannya dan bahkan gw blon terlalu ngeh klo Hadoop itu udh mulai dipake, taunya baru di bli doank sama seksi sebelah.

Dan distu gw ngerasa… gile, udh ketinggalan jauh banget yah gw, proses yg memakan puluhan jam itu, dengan teknologi baru bisa selesai dalam waktu sekian detik doank.

Semoga berguna