Pengertian Big Data adalah sebagai kumpulan data yang memiliki karakteristik volume, velocity, variety yang kompleks, sehingga membutuhkan kemampuan untuk menangkap, memproses, menyimpan, mengelola, dan menganalisis data tersebut. Ketiga karakteristik tersebut biasa disebut dengan 3V:
- Volume: Big Data memiliki jumlah yang sangat besar. Ukuran Big Data dapat mencapai milyaran baris dan jutaan kolom, bahkan lebih.
- Velocity: Big Data dihasilkan dan tumbuh dengan sangat cepat. Hal ini menyebabkan pemrosesan dan analisis terhadap Big Data harus dilakukan secara real time.
- Variety: Big Data memiliki tipe dan struktur data yang kompleks. Big Data dihasilkan dari berbagai sumber data dengan format dan struktur yang beraneka ragam.
Ketika karakteristik di atas merupakan hal utama dalam menentukan pengertian Big Data. Dalam perkembangannya para peneliti, akademisi, praktisi, dan konsultan menambahkan ‘V’ lainnya dalam menentukan ciri-ciri dari Big Data, diantaranya, Veracity, Variability, Visualisasi, dan Value.
- Veracity merupakan ambiguitas data dimana data yang kita miliki masih penuh ketidakpastian tentang validitasnya.
- Variability yaitu kontinuitas perubahan data yang terjadi secara terus menerus.
- Visualisasi sangat penting dalam menghadirkan data yang dapat dimengerti secara lebih mudah.
- Value, dimana data pada akhirnya harus menciptakan suatu nilai bagi perusahaan atau organisasi.
Pada tahun 2010, Eric Schmidt berbicara pada konferensi Techonomy di Lake Tahoe, California dan dia menyatakan bahwa, “terdapat exabytes informasi yang dibuat oleh seluruh dunia di antara awal peradaban dan tahun 2003. Sekarang jumlah yang sama tersebut dibuat setiap dua hari.” Karakteristik serta pengertian Big Data tersebut mengisyaratkan bahwa suatu organisasi akan membutuhkan arsitektur data, analytic sandboxes, tools, teknologi, dan metode analitik yang baru. Cara-cara lama dalam mengolah data harus digantikan dengan cara-cara baru mengingat adanya tujuh ‘V’ di atas. Selain itu, juga diperlukan integrasi dari berbagai keahlian dalam suatu tim Data Science.
Saat ini, Big Data serta perlunya analisis lanjutan dalam dunia industri dan pemerintahan menjadi topik yang sering diperbincangkan. Ketersediaan sumber data baru dan munculnya algoritme analisis yang kompleks menjadikan kita perlu berpikir kembali mengenai arsitektur data yang memungkinkan untuk melakukan analisis data.
Dari waktu ke waktu, jumlah data bertambah dengan laju yang terus meningkat pula. Hal-hal yang mendorong pertambahan jumlah data ini diantaranya mobile sensors, social media, video surveillance, video rendering, smart grids, geophysical exploration serta medical imaging. Beberapa industri telah mengumpulkan dan memanfaatkan data yang dimiliki, misalnya perusahaan kartu kredit selalu memonitor transaksi nasabahnya, kemudian menemukan rule untuk mendeteksi adanya transaksi anomali yang mengindikasikan kecurangan atau penipuan.
Tahun 2011, McKinsey pada seminar Big Data: The Next Frontier For Innovation, Competition, and Productivity, mengatakan bahwa pada tahun 2018 Amerika serikat sendiri akan menghadapi kekurangan 140.000-190.000 Data Scientist dan juga 1,5 juta Data Managers. Data Scientist seperti layaknya ilmuwan, melakukan eksperimen-eksperimen untuk menemukan hal-hal baru yang nantinya bermanfaat untuk perusahaan. hal-hal baru ini bisa jadi merupakan pola-pola yang tidak umum terjadi atau tidak umum diketahui oleh perusahaan sejenis. Dengan menemukan pola-pola baru inilah, perusahaan bisa mendapatkan keuntungan dibanding kompetitor mereka. Seringkali, kemenangan dalam persaingan bisnis ditentukan oleh kemampuan Data Scientist yang menganalisa sebuah data. Contoh pola yang dicari Data Scientist misalnya pola atau model rekomendasi item yang biasa digunakan di website e-commerce seperti Amazon atau misalnya seperti Netflix. Pola atau model rekomendasi ini meskipun namanya sama tentunya berbeda dari satu perusahaan ke perusahaan lainnya karena karakteristik konsumennya, jenis barang yang ditawarkan. Data Scientist ini juga diharapkan mampu menjembatani kesenjangan antara Teknologi Informasi (TI), data, dan bisnis.
Dalam beberapa tahun terkahir, jumlah Startups Big Data terus berkembang dalam jumlah besar, semua mencoba untuk menghadapi Big Data dan membantu organisasi-organisasi untuk memahami Big Data dan semakin banyak perusahaan yang secara perlahan mengadopsi dan bergerak ke arah Big Data. Walaupun Big Data telah ada sejak lama, faktanya Big Data ada ketika internet ada pada tahun 1993. Revolusi Big Data ada di hadapan kita dan masih banyak perubahan yang akan terjadi pada tahun-tahun mendatang.
Berkenaan dengan struktur data dalam Big Data, secara umum, struktur data dapat dibagi menjadi empat tipe besar.
- Structured Data. Data terdiri dati tipe data, format, dan struktur yang telah terdefinisi. Tipe data ini dapat berupa data transaksional, OLAP data cubes, tradisional RDBMS, file CSV, dan simple spread-sheets.
- Semi-Structured. Merupakan file data tekstual yang masih terlihat polanya, sehingga dapat di-parsing menjadi structured data, misalnyaa XML.
- “Quasi” Structured. Data tekstual dengan format yang tidak menentu, dimana untuk menjadikan structured data membutuhkan usaha, tools, dan waktu yang lebih.
- Unstructured Data. Data yang tidak memiliki struktur yang melekat. Unstructured data dapat berupa dokumen teks, images, dan video.
Semoga artikel pengertian Big Data ini bermanfaat.