Artikel Umum

Overfitting pada Data Mining

posted Nov 17, 2012, 10:15 AM by Feris Thia   [ updated Nov 17, 2012, 10:20 AM ]

Seperti yang kita ketahui, untuk menghasilkan model prediktif pada machine learning digunakan training set (historical data) yang diharapkan dapat memberikan prediksi data yang akurat.

Untuk menunjang hal tersebut, ketika training set menghasilkan model. Maka model itu akan diperbandingkan kembali dengan training set tersebut untuk mendapatkan rasio kesalahan "plotting".

Nah, kadangkala model kita terlalu "pintar" sehingga rasio kesalahan sangat kecil ketika dibandingkan dengan training set tersebut. Ini menjadi bahaya karena sebenarnya tidak realistis untuk memprediksi data yang belum diketahui.

Kondisi ini sering disebut dengan overfitting pada ranah data mining.

[todo]

Data Warehouse : Inmon vs Kimball

posted Mar 16, 2011, 2:40 AM by Editor KampusBI   [ updated Jul 5, 2011, 5:24 AM ]

Berikut adalah cuplikan definisi data warehouse dari dua ahli data warehouse yaitu Bill Inmon dan Ralph Kimball.
  1. Bill Inmon :  A data warehouse is a subject-oriented, integrated, non-volatile, and time-variant collection of data in support of management’s decisions.
  2. Ralph Kimball : A data warehouse is a system that extracts, cleans, conforms, and delivers source data into a dimensional data store and then supports and implements querying and analysis for the purpose of decision making.

Apakah kita memang perlu "Data Warehouse" ?

posted Feb 19, 2011, 4:48 AM by Editor KampusBI   [ updated Oct 22, 2012, 8:01 AM ]

Pendahuluan

Banyak pihak yang sebelumnya memiliki proyek data warehouse, sering "alergi" mendengar kata-kata tersebut karena gagal mendapatkan hasil yang berarti.

Memang sering terjadi perdebatan jika data warehouse sebenarnya tidak diperlukan karena :
  1. kompleksitas dan kerumitan yang lebih besar dibanding manfaat yang didapatkan.
  2. persepsi bahwa data warehouse memerlukan implementasi yang super mahal dan juga lama prosesnya.
Penulis tidak akan coba memperdebatkan dua hal di atas tetapi mungkin berangkat dari pengalaman, banyak sekali bisnis yang tidak memerlukan enterprise data warehouse, tapi lebih memerlukan pengembangan kumpulan data mart secara bertahap. 

Data mart yang dimaksud disini adalah database terintegrasi dari suatu divisi, seperti divisi marketing, finance, procurement, dan unit bisnis lainnya.

Siklus pengembangan dengan  pendekatan ini lebih singkat dan memberikan nilai lebih  besar untuk manajemen divisi tersebut , karena dapat memberikan gambaran besar operasional dan performa bisnis unit tersebut.

Jadi kapan kita benar-benar tidak memerlukan data warehouse maupun data mart ?

Namun Anda juga mungkin tidak memerlukan data warehouse atau data mart sama sekali jika :
  • data tidak terlalu besar dan sudah terpusat pada satu database.
  • bisnis proses tidak terlalu banyak berubah dalam kurun waktu yang cukup panjang.
  • teknologi yang Anda gunakan cukup cepat untuk menampilkan presentasi data dalam bentuk laporan operasional maupun strategis.
  • struktur data sangat sederhana, dengan penggunaan query relasional biasa saja sudah mencukupi.

Kapan kita memerlukan data warehouse / data mart ?

Namun jika sebaliknya, pada organisasi / perusahaan Anda memiliki kondisi berikut :
  • data sangat besar.
  • teknologi yang digunakan sudah tidak efisien - lama untuk menampilkan laporan karena besarnya data yang diolah atau kompleksnya hubungan antar table.
  • bisnis proses berubah dengan sangat cepat.
  • data tersebar di banyak tempat dan dengan format yang sangat berbeda (dbf, text, excel, sql server, dll) akan menyebabkan konsolidasi laporan yang sangat sulit.
maka saatnya Anda memerlukan integrasi dan transfomasi data ke dalam suatu data mart dimana teknologi dan lokasi yang diakses adalah "satu pintu". 

Selain itu pada data mart tersebut harus berisi struktur data dan isi yang sangat optimal - karena sudah ditransformasi - untuk ditampilkan dalam bentuk laporan. 

Ini akan berakibat efisiensi yang tinggi ketika dihubungkan dengan reporting system kita, dan ujung-ujungnya akan mengakibatkan penghematan - baik waktu maupun utilisasi hardware.

Selain itu, dengan perkembangan teknologi integrasi data (ETL) yang semakin hari semakin cost efficient, maka kata "data warehouse" atau "data mart" seyogyanya tidak lagi terdengar menakutkan. 

5 Faktor Kegagalan Implementasi BI

posted Jan 21, 2011, 8:55 PM by Editor KampusBI   [ updated Jul 6, 2011, 7:36 AM ]

Tidak semua implementasi Business Intelligence (BI) pasti berhasil di lakukan sesuai dengan yang diharapkan. Beberapa faktor yang dapat mengakibatkan kegagalan yang sangat perlu diperhatikan dan dipertimbangkan antara lain sebagai berikut :
  1. Pemahaman Konsep dan Sistem BI yang Salah

    Sebelum Anda memutuskan melakukan implementasi BI sebagai aplikasi pendukung keputusan yang sangat strategis, sangat dianjurkan pengguna dapat mengetahui sebelumnya pemahaman konsep-konsep dasar dari BI itu sendiri.

    Sebagai contoh : pemahaman mengenai apa itu BI, unsur-unsur aplikasi BI, proses perjalanan implementasi, apa yang bisa dilakukan dan tidak bisa dilakukan, pihak-pihak yang harus terlibat (stakeholder), dan lain-lain. 

    Masih banyak pihak yang menganggap Dashboard KPI yang interaktif = BI. Padahal itu "hanya" presentasi final dari informasi yang harus VALID. Dan validitas data itu tidak diperoleh dengan gampang, ada banyak metode dan proses yang harus dilalui.

    Yang juga harus disadari, tidak ada satupun sistem BI yang langsung “siap pakai”.  Sistem kebutuhan informasi pendukung keputusan dari setiap user pengguna tentu pasti berbeda beda. Business process untuk satu pengguna tentunya tidak sama dengan pengguna lain. 

    Hal ini yang tidak memungkinkan adanya suatu template BI generik yang bisa diadopsi langsung. Implementasi BI memerlukan suatu proses penyempurnaan yang berkelanjutan (iteratif),  bukan pembelian sistem yang sekali beli jadi dan dapat digunakan langsung. 

    Oleh sebab itu, pengguna perlu memiliki definisi dan gambaran yang jelas terhadap hal-hal ini sehingga tidak memiliki harapan yang tinggi tapi tidak realistis.

  2. Perencanaan dan Persiapan yang Kurang Matang

    Dari pemahaman BI yang baik, tentunya berlanjut pada perencanaan dan persiapan implementasi mulai dari definisi formal apa saja yang diinginkan, organisasi struktural, termasuk alokasi SDM yang memadai, penyediaan data, capacity planning, dan lain-lain. 

    Karena dengan memahami hal ini tentunya pihak pengguna bisa mempersiapkan segala sesuatunya agar bisa mencapai dua tujuan :
    • mendapatkan sistem BI yang maksimal sesuai kebutuhan serta target pencapaian yang diinginkan.
    • me-minimalisasikan hambatan yang mungkin terjadi dalam proses pengembangan.

  3. Rendahnya Intensitas Komunikasi Pengguna - Pengembang Sistem BI

    Metodologi pengembangan BI agak berbeda dengan pengembangan sistem pengembangan aplikasi IT biasa. Porsi interaksi yang lebih panjang antara pengguna – yaitu  komunitas eksosistem bisnis (direktur, manajemen, dan staf) – dengan IT dan pengembang aplikasi BI itu sendiri merupakan penentu sukses yang sangat penting.

    Kalau bisa dikuantifikasi, maka komposisi interaksi vs non interaksi dari waktu project adalah 70% - 30%.

    Masih rendahnya dukungan informasi dan hubungan komunikasi antar pengguna dan pengembang akan menyebabkan implementasi BI yang sangat buruk.

    Ini terutama dalam pembangunan data warehouse - yang hampir diperlukan di semua proyek BI – sebagai pondasi awal atau sumber data utama untuk sistem BI.  Sebagai contoh, pada proyek data warehouse interaksi yang intens untuk melakukan validasi data secara cepat adalah kunci keberhasilan utama.

    Kembali ke masalah interaksi ini maka user dituntut harus mampu menyediakan dan mendefinisikan dengan baik kebutuhannya, antara lain :
    • Mengerti dan menjelaskan proses bisnis yang terjadi.
    • Informasi apa yang perlu dianalisis.
    • Data apa yang  diperlukan.
    • Ketersediaan data tersebut.
    • Dimana saja data tersebut dapat dikelola.
    • Kepada siapa saja kebutuhan data tersebut disajikan.
    • Bagaimana kebutuhan presentasi informasi yang di harapkan.

    Dan sebagai catatan penting, proses ini tidak bisa dilimpahkan langsung kepada IT dan pengembang sepenuhnya sebagaimana yang sering sekali terjadi saat ini. Semua pihak yang berkepentingan harus berinteraksi bersama-sama melakukan hal tersebut.

    Dari Pihak Pengembang sendiri harus mampu se-intensif mungkin menggali dari user. User kadang tidak mengerti kebutuhan untuk realisasi BI itu seperti apa, dan tanggung jawab dari pengembang lah untuk membantu mengkomunikasikan hal tersebut.

  4. Kualitas Data yang Sangat Kotor

    Proses dasar BI adalah pemanfaatan berbagai sumber-sumber data yang ada, dan diolah dengan menggunakan rangkaian metode, aplikasi dan teknologi untuk menghasilkan informasi yang dapat membantu  pihak user dalam pengambilan keputusan. 

    Proses untuk menghasilkan informasi yang baik tentunya memerlukan data yang bersih dan berkualitas tinggi juga.  Sumber data yang kotor - dalam arti inkonsistensi pola data, struktur, dan kompleks dari banyak sisi lainnya – akan menyebabkan proses perbaikan (cleansing) berjalan lama sebelum dapat disajikan sebagai informasi yang berguna.

    Perlunya proses yang panjang untuk mendapatkan data yang bersih ini sebelum dapat dimanfaatkan dalam sistem BI sering sekali kurang dipahami oleh user. Akhirnya sering juga terjadi salah paham dan persepsi antara user dan pengembang dari realisasi target pencapaian rangkaian proses BI ini. 


  5. Kurangnya SDM Yang Memenuhi Syarat

    Sistem  BI yang baik wajib memenuhi kebutuhan informasi yang inginkan. Sistem yang baik tanpa SDM yang berkualitas tidak akan menghasilkan sesuatu yang berarti dan sangat beresiko menemui kebuntuan dalam setiap tahap implementasi. 

    Ibarat sebuah kendaraan canggih tanpa seorang supir yang memahami jalan dan juga semua fungsi dari kendaraan tersebut, maka tentunya kendaraan tersebut tidak bernilai apa apa. Hal ini tentunya diperlukan pemahaman dari top eksekutif untuk bersedia dan mampu mempersiapkan SDM yang dibutuhkan. 

Penutup

Berdasarkan pemaparan di atas, diharapkan mampu tercermin banyak hal / faktor krusial yang sangat perlu diperhatikan dan dipertimbangkan. Karena semua paparan di atas menjadi penentu sukses tidaknya implementasi BI.
 
Keberhasilan penerapan Business Intelligence tidak hanya terletak pada ketersedian alokasi dana dan peran pengembang sepihak saja, namun pada akhirnya diperlukan kesiapan dari semua pihak (stakeholder) pengguna BI itu sendiri.

Apa itu Business Intelligence ?

posted Jan 15, 2011, 6:25 PM by Editor KampusBI   [ updated Feb 27, 2012, 9:46 AM by Feris Thia ]


Pendahuluan 

Business Intelligence sebagai bidang teknologi IT dengan perkembangan adopsi yang sangat pesat belakangan ini  tentunya menuntut pemahaman yang komprehensif baik di tingkat konsep maupun praktis, sehingga dapat dieksplorasi maupun diimplementasikan sebagai suatu solusi strategis dan kritis pada tingkat institusi, organisasi, perusahaan maupun pada tingkat individual. 

Artikel KampusBI.com berikut ini akan coba menyajikan overview mengenai Business Intelligence mulai dari definisi sampai dengan pembahasan komponen-komponen BI.

Apa itu Business Intelligence atau BI ?

Secara singkat, Business Intelligence atau lebih sering disingkat BI (baca: bi - ai) adalah seperangkat solusi sistem informasi yang dapat menuntun kepada percepatan pengambilan keputusan dalam tingkat akurasi yang tinggi (valid). 



Sebagai contoh, informasi yang dihasilkan adalah metrik performa aktual penjualan vs target penjualan (sales), pengeluaran vs anggaran (finance), analisa tren produksi vs tren permintaan (capacity planning), dan lain-lain.

Kenapa BI ?

Pengambilan keputusan memerlukan data dari sistem BI yang berasal dari kumpulan :
  • data faktual
  • data perencanaan 
  • maupun data prediksi
yang diolah menjadi informasi yang komprehensif - dan biasanya komparatif - sehingga dapat memberikan gambaran besar bahkan menyeluruh akan kondisi bisnis dan organisasi pada  : 
  • masa lalu.
  • masa kini.
  • dan tren ke masa depan. 

Dari tuntunan informasi yang dihasilkan ini, diharapkan pengguna sistem BI dapat mengambil keputusan dengan cepat dan tegas - serta tingkat resiko yang lebih kecil. 

Konsekuensi pengambilan keputusan yang cepat tentu sangat besar, antara lain dapat memenangkan persaingan dimana kita sudah mengambil langkah antisipatif setelah mengetahui informasi satu atau beberapa langkah ke depan dibanding pesaing kita.

Dua Aspek Business Intelligence

Batasan definisi yang lebih terinci dari Business Intelligence dapat dibagi dalam dua aspek, yaitu :
  • Metode-metode atau teknik dalam praktek mendefinisikan, mengumpulkan dan mempresentasikan data dan aturan bisnis yang terikat dengannya menjadi informasi strategis yang dapat dimengerti dengan mudah oleh berbagai level pelaku bisnis. Strategis disini artinya adalah dapat mendukung pengambilan keputusan dalam frame waktu yang semakin baik dari hari ke hari.
  • Kumpulan teknologi dan aplikasi sistem terkomputerisasi yang mendukung hal di atas.

Data Warehouse dan Business Intelligence

Business Intelligence dan Data Warehouse adalah dua hal yang sebenarnya berbeda namun hampir tidak bisa dipisahkan. Hubungan antar keduanya sedemikian erat sehingga kita tidak bisa membicarakan BI tanpa Data Warehouse.

Sebagai solusi yang sangat bergantung pada data berkualitas tinggi, solusi BI akan menghasilkan informasi yang akurat jika sumber datanya baik dan akan menghasilkan informasi yang salah jika sebaliknya. Selain itu respon sistem BI juga harus baik sehingga dapat mencapai tujuannya dari sisi efisiensi waktu.

Terkait dengan hal tersebut, sumber data pada organisasi yang kompleks dan besar biasanya perlu diolah agar dapat digunakan baik oleh sistem tersebut. 

Kompleksitas yang biasanya terjadi adalah sumber data tersebar di berbagai titik dan pernah memiliki siklus pengembangan bertahap.  

Konsekuensinya, isi data bisa berbeda pada tiap titik area fisik, dan pada tiap periode waktu siklus pengembangan. Data demikian hampir dipastikan perlu perlakuan tertentu agar seragam namun tetap valid. Dan jika tidak ditangani dengan disiplin yang baik pada tahap pengembangannya, data cenderung menjadi "kotor".

Data Warehouse memenuhi kriteria tersebut, yaitu merupakan database tersendiri merupakan hasil konsolidasi, pembersihan, penyesuaian, dan optimalisasi data sehingga layak dijadikan sebagai sumber data informasi untuk sistem BI.

Proses menghasilkan data warehouse ini tidak sederhana dan menuntut pembahasan sendiri yang intens. Bahkan bisa diklaim di hampir semua kasus, jika dimasukkan sebagai bagian proyek BI maka Data Warehouse merupakan task yang paling lama pengembangannya.

Digital Dashboard

Para eksekutif sangat berkepentingan dengan gambaran kondisi bisnis secara keseluruhan. Dan ini informasi ini dituntut untuk disajikan dalam format yang gampang dicerna. Dan ini biasanya dicapai oleh sistem BI dengan penggunaan visualisasi berbagai chart dalam satu halaman presentasi.

Karena kondisi jenis informasi diadopsi oleh tipe chart yang berbeda-beda, maka biasanya visualisasi ini dikombinasikan sedemikian rupa sehingga menyerupai "dashboard" mobil dan disebut Digital Dashboard. Digital Dashboard adalah komponen penting yang tidak terpisahkan dari produk BI saat ini.



Online Analytical Processing (OLAP)

Laporan analisis historis dan perencanaan pada ranah BI dikenal sebagai Online Analytical Reporting (OLAP). Sistem OLAP merupakan komponen BI yang dirancang untuk dapat menghasilkan informasi untuk satu proses bisnis dilihat dari berbagai perspektif - dengan dinamis dan dalam waktu respon yang singkat.

Sebagai Contoh

Kita dapat melihat data penjualan dari sisi produk, waktu dan pasar di satu saat.


Dan dapat melihat data penjualan dari sisi waktu, status pemesanan dan pasar di saat lain pada menu laporan yang sama.


Sangat dinamis bukan ?

Kontras dengan OLAP adalah sistem transaksional seperti Enterprise Resource Planning (ERP), Customer Relationship Management (CRM), Sales Force Automation, dan lain-lain. Sistem transaksional ini kemudian diistilahkan dengan Online Transactional Processing (OLTP).

Database OLAP ini biasanya memang berasal dari database OLTP. Database OLAP ini untuk hampir semua kasus adalah bagian dari Data Warehouse.

BI dan Decision Support System

Dari karakteristik pemanfaatan teknologi ini, sebenarnya sistem BI sudah dikenal sebelumnya dengan nama Decision Support System (DSS). Namun karena terkait dengan istilah dan komponen yang berkembang cukup banyak belakangan ini, maka dapat dimengerti untuk dibuat istilah baru agar tidak terjebak dalam batasan-batasan lama.

1-5 of 5