Infrastruktur Big Data

Ketika membicarakan Big Data tentunya kita akan tersadar terhadap kebutuhan infrastruktur untuk menopang teknologi Big Data tersebut. Dalam infrastruktur teknologi Big Data sendiri memiliki karakteristik yang berbeda dengan traditional data, yaitu :

Screenshot from 2014-01-04 17:33:50

Pada awalnya tahun 1970-2000 data yang dibangun meruapakan data dengan model terstruktur dan merupakan relational database seperti MySQL, oracle, dan lain-lain. Lalu pada tahun 1995 berikutnya mulai dibangun suatu business intelligence yang menggunakan structured dan relational database dengan system seperti cognos, pentaho dan lain-lain. Pada 2010 hingga sekarang dibangun suatu system yang memiliki tujuan 3V (volume, velocity, varity) atau 4V (ditambah value), dan dengan bermacam teknologinya seperti map reduce, high performance computers cluster dan lain-lain.

Artinya Big Data merupakan bagian dari intelijen bisnis, Big Data dapat digunakan untuk membentuk suatu bisnis yang memiliki intelijen guna mendukung pengambilan keputusan. Namun dalam hal ini ada beberapa hal yang berbeda dari segi volume yang bukan hanya jumlah data yang banyak, namun pertumbuhan data yang sangat pesat sehingga dalam rentang waktu yang pendek data dapat bertumbuh dengan sangat cepat dan besar (velocity), dan data yang ada memiliki variasi yang sangat banyak (variety) tentunya dalam big data sendiri terutama dalam pembentukan datawarehouse sudah banyak dilakukan ekstraksi transform load untuk menanggulanggi varietas dari data tersebut sehingga data dapat menjadi standar baik dibersihkan dari berbagai noise juga dilakukan transformasi sehingga data jauh lebih sesuai dengan proses bisnis yang ada atau yang sedang berjalan bagi organisasi tertentu.

Intelijen bisnis yang didalamnya terdapat pemanfaatan big data pun membutuhkan suatu teknologi yang dapat mendukung proses bisnis yang ada didalam intelijen bisnis itu sendiri, sehingga dapat berjalan sesuai dengan yang diharapkan. Sehingga perlu dibangun suatu infrastruktur yang tepat dan dapat mengatasi kebutuhan big data yaitu salah satunya adalah proses pengolahan data yang sangat cepat walaupun diwaktu yang sama data berukuran besar dan tumbuh dengan cepat.

Yang menjadi masalah dan tantangan adalah akusisi data, recording data, ekstraksi, cleaning, anotasi, integrasi, agregasi, representasi, analisis, modeling, interpretasi, dan visualisasi. Big data sendiri memiliki penerapan dan manfaat untuk berbagai bidang seperti yang sudah disebutkan diatas sebelumnya.

Ada dua teknologi dalam infrastruktur dalam Big data yaitu :

  1. High Performance Computing Cluster (HPCC) atau dapat disebut sebagai Data Analytics Supercomputer (DAS)
  2. Hadoop Platform (Map Reduced-Based Platform)

Dari kedua pendekatan teknologi tersebut terdapat perbedaan yang cukup signifikan (dari segi fungsi) dan juga terdapat kemiripan dalam proses yang berjalan didalamnya. Kemiripan dari dua teknologi tersebut adalah sama-sama memanfaatkan lebih dari satu komputer dalam melakukan proses penarikan informasi ataupun pemrosesan berbagai informasi atau bahkan dapat terlihat keduanya menggunakan konsep kluster pada arsitektur teknologi yang digunakan. Pada dasarnya keduanya pun dapat diintegrasikan dengan baik guna saling mendukung satu sama lain.

High Performance Compputing Clusters ini sendiri pada dasarnya membangun suatu super komputer yang terdiri dari lebih dari satu komputer dengan spesifikasi tertentu (biasanya sama) untuk saling membantu menopang, atau membagi tugas satu sama lain sehingga bersama-sama dapat melakukan processing terhadap suatu data, terutama dalam hal pencarian data. Proses besar yang biasanya berjalan sendiri adalah seperti, Ekstrak, Transform, dan Load, lalu setelah itu dilakukan analisis untuk mendapatkan informasi yang lebih sesuai dengan kebuthan bisnis organisasi tersebut.

Screenshot from 2014-01-04 17:34:03

Sedangkan Hadoop Platform sendiri merupakan suatu project teknologi yang dikembangkan oleh apache dalam mengelola data besar sehingga jauh lebih efektif dan efisien. Dalam hadoop sendiri terdiri dari berbagai komponen, bahkan hingga hadoop sendiri memiliki distributed file system sendiri yang disebut dengan (HDFS). Kelebihan dari dari HDFS ini sendiri adalah :

  • Fault tolerance, dan di-deploy untuk low cost hardware
  • Write Onece, Read many, merupakan koherensi sederhana, dan terlebih lagi framework yang dibangun dalam hadoop ketika kita akan menggunakan hadoop, menggunakan teknologi java.
  • Memindahkan komputasi/proses lebih cepat dari memindahkan data.
  • Mirip Google File System, tetapi HDFS membagi file menjadi block dalam cluster node yang terdistribusi.
  • Core component : master vs slave, name node vs data node, job tracker vs task tracker.

Dan berikut gambaran dari hadoop Platform:

Screenshot from 2014-01-04 17:34:21Dan berikut adalah salah satu arsitektur integrasi antara HPCC dan Hadoop platform :

Screenshot from 2014-01-04 17:34:41

Pada masa ini terdapat perbedaan Sistem manajemen Basis Data, yang pada dasarnya basisdata memiliki korelasi antar data yag biasanya kita sebt dengan data yang sudah terstruktur atau terorganisasi, dan perangkat system manajemen basis datanya yang merupakan perangkat lunak yang dapat digunakan untuk mengelola basis data seperti MySQL, Oracle, PostgreSQL dan lain-lain. Pada saat init terdapat kebutuhan lain dari manajemen basis data dengan adanya big data atau menjadi Sistem Manajemen Big Data. Beriku adalah penyebab kenapa terdapat kebutuhan Manajemen Big Data tersebut:

  1. Tidak semua persoalan pengolahan data dapat diselesaikan dengan cara terbaik menggunakan traditional relational DBMS.
  2. DBMS konvensional tidak cukup untuk big data karena:
    1. Kecepatan akses (isu volume)
    2. Kesederhanaan set up
    3. Kebutuhan representasi struktu/skema yang lebih longgar (isu variety)
    4. Kebutuhan pengelolaan data yang berbeda (ACID tidak sepenuhnya diperlukan), missal connectedness.
    5. Kebutuhan arsitektur terdistribusi (scale out).

Sehingga dibangun berbagai perangkat lunak yang dapat mengatasi kebutuhan tersebut namun masingmasing teknologi memiliki karakteristik dalam proses pengolahan yang berbeda, berikut contohnya :

  1. Column Oriented
    • Big table (google), Hbase, Cassandra (Facebook)
  2. Document Oriented
    • CouchDB, MongoDB
  3. Graph-Oriented
    • Neo4j, Virtuoso
  4. Key-value Oriented
    • DynamoDB (Amazon), Riak

Dari beberapa contoh DBMS diatas tersebut terlihat bahwa ada perbedaan mendasar pada masing DBMS untuk big data tersebut adalah pada orientasi masing-masing database management system. Biasanya system untuk manajemen basis data untuk  Big Data yang digunakan adalah NoSQL yang pada awalanya ditujukan oleh para komunitas yang tidak menyukai penggunakan SQL sebagai “tidak menggunakan SQL” namun sekarang karena kesadaran ternyta kita tidak bias sepenuhnya lepas terhadap SQL ini, dirubah menjadi “Not Only SQL” (NoSQL). NoSql ini merupakan DBMS yang disebutkan sebelumnya (4 point di atas). NoSQL memiliki perbedaan merupakan database yang tidak berelasi, karena tidak adanya kebutuhan connectedness yang sudah disebutkan sebelumnya, dan biasanya bersifat terdistribusi dan scale out (secara horizontal). Tanpa ada skema khusus sehingga lebih longgar terhadap skema, dan penggunakan Application Programming Interface yang lebih sederhana dalam penggunaan manipulasi atau processing data. Juga menerapkan perinsip BASE, buka ACID.

Yang paling terkenal sendiri untuk teknologi NoSQL ini adalah Hadoop dengan map reducenya yang antara versi 1.0 dan 2.0 nya memiliki perbedaan yang cukup signifikan terutama dalam model frameworknya, yang kedua adalah Document Oriented yang memiliki konsep hirarki dalam dokumen suatu data, dan biasanya doumen di enkapsulasi dan encoding dalam format standar XML,JSON, YAML, dan lain-lain. Sedangkan Graph oriented merupakan DBMS yang memrepresentasikan model data graph, yang memperlihatkan keterhubungan antar setiap data.

Dalam proses mining (datamining) dengan adanya big data ini sendiri cukup menguntungkan karena datamining membutuhkan data yang banyak sehingga menghasilkan model yang jauh lebih general namun memiliki akurasi yang tinggi. Namun dengan adanya big data ini sendiri datamining diharuskan menerima tantangan bagaimana melakukan datamining dengan skala yang sangat besar dan terdistribusi juga dengan variety data yang sangat variatif.

Sehingga diharapkan dengan pemanfaatan infrastruktur teknologi dari Big Data yang tepat guna dapat mendukung proses bisnis yang ada menjadi jauh lebih baik terutama dalam proses pengambil informasi, knowledge dan wisdom guna mendukung dalam pengambil keputusan pada suatu organisasi tertentu baik itu profit maupun non-profit, baik itu swasta maupun pemerintah.

References :

Workshop Big Data, Institut Teknologi Bandung, 29 November 2013, Pemateri : Dr. techn. Saiful Akbar

Advertisements

One thought on “Infrastruktur Big Data

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s