Senin, 24 November 2014

DATA QUALITY

Beberapa indikator data yang berkualitas antara lain sebagai berikut:
  1. ACCURACY = data yang tersimpan nilainya benar (name cocok dengan alamatnya)
  2. DOMAIN INTEGRITY = nilai attributnya sesuai batasan yang diperkenankan (nilai attribut laki n perempuan)
  3. DATA TYPE = Nilai data disimpan dalam tipe data yang sesuai (data nama disimpan dengan tipe text)
  4. CONSISTENCY = nilai sebuah field data akan sama semua dalam berbagai berkas (field produk A dgn kode 123, akan selalu sama kodenya di setiap berkas lain)
  5. REDUDANCY = tidak boleh ada data yang sama disimpan di tempat yang berbeda dalam satu sistem
  6. COMPLETENESS = Tidak ada nilai atttribut salah yang diberikan dalam sistem
  7. DATA ANOMALY = sebuah field hanya digunakan sesuai kegunaannya. (field address3  digunakan untuk mencatat baris ketiga dalam alamat bukan untuk telp atau fax)
  8. CLARITY = Kejelasan arti kegunaan dan cara penulisan sebuah data (penamaan khusus)
  9. TIMELY = merepresentasikan waktu dari data yang dimasukkan (jika data digunakan perhari maka data pada warehaouse harus juga dibuat per hari)
  10. USEFULNESS = setiap data harus benar digunakan oleh user
  11. ADHERENCE TO DATA INTEGRITY RULES = taat pada aturan keterhubungan data
Ada beberapa teknik pengukuran apakah data di organisasi/perusahaan kita berkualitas atau tidak, salah satunya dalam buku “Executing Data Quality Projects: Ten Steps to  Quality Data and Trusted Information” oleh Danette McGilvray dari MIT dengan 10 langkah seperti pada gambar dibawah ini
Pendekatan dalam Pengelolaan Kualitas Data
Pendekatan dalam Pengelolaan Kualitas Data

  • Data Quality adalah hal yang sangat kritis karena dapat meningkatkan kepercayaan diri data, memungkinkan pelayanan customer menjadi lebih baik, meningkatkan pengambilan keputusan strategik, dan mengurangi risiko dari keputusan rawan.
  • Dimensi Data Quality meliputi accuracy, domain integrity, consistency, completeness, structural definiteness, clarity, dll.
  • Data Quality dihasilkan dari berbagai sumber dalam sebuah data warehouse dan berbagai sumber polusi yang mengintensifkan tantangan yang dihadapi ketika mencoba untuk membersihkan data.
  • Buruknya kualitas data nama dan alamat memberikan keprihatinan serius kepada organisasi. Daerah ini adalah salah satu tantangan terbesar dari Data Quality.

Sabtu, 15 November 2014

ETL dan TOOLS ETL

 ETL (Extract, Transform, Load)

Data Warehouse dibangun dengan mengintegrasikan data-data yang berasal dari berbagai sumber data, yaitu database operasional. Dalam suatu perusahaan, data-data operasional biasanya berada pada daerah kekuasaan departemen masing-masing dalam bentuk database OLTP.

Untuk melakukan proses integrasi ini Data Warehouse Architect menggunakan suatu aplikasi yang disebut ETL (Extract, Transform, Load).Sesuai dengan namanya, aplikasi ETL melakukan fungsi-fungsi Extract, Transform dan Load. Proses Extract adalah proses pengambilan data dari sumber data.

Disebut extract, karena proses pengambilan data ini tidak mengambil keseluruhan data yang ada di database operasional, melainkan hanya mengambil data-data matang saja. Proses Extract ini harus mengakomodir berbagai macam teknologi yang digunakan oleh sumber data dan diintegrasikan ke dalam databsae tunggal.

Kemudian data-data hasil extract ini menjalani proses transformasi yang pada prinsipnya adalah mengubah kode-kode yang ada menjadi kode-kode standard, misalnya kode propinsi. Hal ini perlu dilakukan mengingat data-data yang diambil berasal dari sumber yang berbeda yang kemungkinan memiliki standarisasi yang berbeda pula. Standarisasi diperlukan untuk nantinya memudahkan pembuatan laporan.Arsitektur Data Warehouse yang umum biasanya menempatkan satu server database terpisah yang disebut Staging yang berfungsi untuk menangani proses Extract dan Transform ini sebelum dilakukan proses Load ke tujuan akhir Data Warehouse.

Proses Load dalam ETL adalah suatu proses mengirimkan data yang telah menjalani proses transformasi ke gudang data akhir, yaitu Data Warehouse itu sendiri di mana aplikasi reporting dan business intelligence siap mengakses.Untuk memudahkan pembuatan report dan meningkatkan performance, struktur database dari suatu Data Warehouse biasanya berbentuk Star Schema. Disebut demikian karena bentuk ERD (Entity Relationshio Diagram) dari table-tablenya mirip Bintang (star) (Catatan : Sebetulnya saya tahu bahwa bentuk bintang tidak seperti itu melainkan sama seperti matahari yang kita ketahui yaitu rada bulat, namun demikian untuk menghargai guru-guru saya sejak kecil yang terlanjur memberikan gambar bentuk bintang seperti itu, maka saya ikuti saja).Selain bentuk Star Scheme, bentuk lain yang sering digunakan adalah bentuk snowflake atau gabungan antara star schema dengan snowflake (starflake).

sumber : http://ekopriyoutomo.net/2013/03/proses-etl/

Penyedia ETL Tools
Di bawah ini list yang paling terkenal dari ETL Tools mulai dari yang berbayar sampai yang open source
ETL Tools yang berbayar:
  • IBM Infosphere DataStage
  • Informatica PowerCenter
  • Oracle Warehouse Builder (OWB)
  • Oracle Data Integrator (ODI)
  • SAS ETL Studio
  • Business Objects Data Integrator(BODI)
  • Microsoft SQL Server Integration Services(SSIS)
  • Ab Initio
ETL tools yang gratis (open source):
  • Pentaho Data Integration (Kettle)
  • Talend Integrator Suite
  • CloverETL
  • Jasper ETL