Senin, 24 November 2014

DATA QUALITY

Beberapa indikator data yang berkualitas antara lain sebagai berikut:
  1. ACCURACY = data yang tersimpan nilainya benar (name cocok dengan alamatnya)
  2. DOMAIN INTEGRITY = nilai attributnya sesuai batasan yang diperkenankan (nilai attribut laki n perempuan)
  3. DATA TYPE = Nilai data disimpan dalam tipe data yang sesuai (data nama disimpan dengan tipe text)
  4. CONSISTENCY = nilai sebuah field data akan sama semua dalam berbagai berkas (field produk A dgn kode 123, akan selalu sama kodenya di setiap berkas lain)
  5. REDUDANCY = tidak boleh ada data yang sama disimpan di tempat yang berbeda dalam satu sistem
  6. COMPLETENESS = Tidak ada nilai atttribut salah yang diberikan dalam sistem
  7. DATA ANOMALY = sebuah field hanya digunakan sesuai kegunaannya. (field address3  digunakan untuk mencatat baris ketiga dalam alamat bukan untuk telp atau fax)
  8. CLARITY = Kejelasan arti kegunaan dan cara penulisan sebuah data (penamaan khusus)
  9. TIMELY = merepresentasikan waktu dari data yang dimasukkan (jika data digunakan perhari maka data pada warehaouse harus juga dibuat per hari)
  10. USEFULNESS = setiap data harus benar digunakan oleh user
  11. ADHERENCE TO DATA INTEGRITY RULES = taat pada aturan keterhubungan data
Ada beberapa teknik pengukuran apakah data di organisasi/perusahaan kita berkualitas atau tidak, salah satunya dalam buku “Executing Data Quality Projects: Ten Steps to  Quality Data and Trusted Information” oleh Danette McGilvray dari MIT dengan 10 langkah seperti pada gambar dibawah ini
Pendekatan dalam Pengelolaan Kualitas Data
Pendekatan dalam Pengelolaan Kualitas Data

  • Data Quality adalah hal yang sangat kritis karena dapat meningkatkan kepercayaan diri data, memungkinkan pelayanan customer menjadi lebih baik, meningkatkan pengambilan keputusan strategik, dan mengurangi risiko dari keputusan rawan.
  • Dimensi Data Quality meliputi accuracy, domain integrity, consistency, completeness, structural definiteness, clarity, dll.
  • Data Quality dihasilkan dari berbagai sumber dalam sebuah data warehouse dan berbagai sumber polusi yang mengintensifkan tantangan yang dihadapi ketika mencoba untuk membersihkan data.
  • Buruknya kualitas data nama dan alamat memberikan keprihatinan serius kepada organisasi. Daerah ini adalah salah satu tantangan terbesar dari Data Quality.

Sabtu, 15 November 2014

ETL dan TOOLS ETL

 ETL (Extract, Transform, Load)

Data Warehouse dibangun dengan mengintegrasikan data-data yang berasal dari berbagai sumber data, yaitu database operasional. Dalam suatu perusahaan, data-data operasional biasanya berada pada daerah kekuasaan departemen masing-masing dalam bentuk database OLTP.

Untuk melakukan proses integrasi ini Data Warehouse Architect menggunakan suatu aplikasi yang disebut ETL (Extract, Transform, Load).Sesuai dengan namanya, aplikasi ETL melakukan fungsi-fungsi Extract, Transform dan Load. Proses Extract adalah proses pengambilan data dari sumber data.

Disebut extract, karena proses pengambilan data ini tidak mengambil keseluruhan data yang ada di database operasional, melainkan hanya mengambil data-data matang saja. Proses Extract ini harus mengakomodir berbagai macam teknologi yang digunakan oleh sumber data dan diintegrasikan ke dalam databsae tunggal.

Kemudian data-data hasil extract ini menjalani proses transformasi yang pada prinsipnya adalah mengubah kode-kode yang ada menjadi kode-kode standard, misalnya kode propinsi. Hal ini perlu dilakukan mengingat data-data yang diambil berasal dari sumber yang berbeda yang kemungkinan memiliki standarisasi yang berbeda pula. Standarisasi diperlukan untuk nantinya memudahkan pembuatan laporan.Arsitektur Data Warehouse yang umum biasanya menempatkan satu server database terpisah yang disebut Staging yang berfungsi untuk menangani proses Extract dan Transform ini sebelum dilakukan proses Load ke tujuan akhir Data Warehouse.

Proses Load dalam ETL adalah suatu proses mengirimkan data yang telah menjalani proses transformasi ke gudang data akhir, yaitu Data Warehouse itu sendiri di mana aplikasi reporting dan business intelligence siap mengakses.Untuk memudahkan pembuatan report dan meningkatkan performance, struktur database dari suatu Data Warehouse biasanya berbentuk Star Schema. Disebut demikian karena bentuk ERD (Entity Relationshio Diagram) dari table-tablenya mirip Bintang (star) (Catatan : Sebetulnya saya tahu bahwa bentuk bintang tidak seperti itu melainkan sama seperti matahari yang kita ketahui yaitu rada bulat, namun demikian untuk menghargai guru-guru saya sejak kecil yang terlanjur memberikan gambar bentuk bintang seperti itu, maka saya ikuti saja).Selain bentuk Star Scheme, bentuk lain yang sering digunakan adalah bentuk snowflake atau gabungan antara star schema dengan snowflake (starflake).

sumber : http://ekopriyoutomo.net/2013/03/proses-etl/

Penyedia ETL Tools
Di bawah ini list yang paling terkenal dari ETL Tools mulai dari yang berbayar sampai yang open source
ETL Tools yang berbayar:
  • IBM Infosphere DataStage
  • Informatica PowerCenter
  • Oracle Warehouse Builder (OWB)
  • Oracle Data Integrator (ODI)
  • SAS ETL Studio
  • Business Objects Data Integrator(BODI)
  • Microsoft SQL Server Integration Services(SSIS)
  • Ab Initio
ETL tools yang gratis (open source):
  • Pentaho Data Integration (Kettle)
  • Talend Integrator Suite
  • CloverETL
  • Jasper ETL

Sabtu, 18 Oktober 2014

RESUME STAR SCHEMA

STAR SCHEMA
·         Dibawah ini akan menjelaskan kelbihan dan kekurangan dari star schema.
Kelebihan :
1.      Cenderung mudah dipahami karena modelnya yang lebih sederhana
2.      Memudahkan mencari isi karena kesederhanaannya
3.      Proses query lebih cepat pada saat proses OLAP
Kekurangan :
1.      Ukuran data lebih besar karena ada data yang disimpan ulang
2.      Maintenance dan update lebih sulit

·         Data Marks adalah bagian dari data warehouse
·         Fact Table             : Data Transaksi
·         Dimension Table   : Data Master (mempunyai 1 primary key dan beberapa attribute)
·         Fungsi ETL juga dapat mengurangi redundansi
·         Kesimpulan                       :

 Schema dan Snowflake Schema lebih cepat Snowflake karena kebutuhannya disendirikan dan querynya lebih kompleks.

·         Pemahaman AGREGASI :

Bila mengagregat data, Anda mengelompokkan data berdasarkan atribut, seperti produk, harga, wilayah, atau tanggal, lalu menentukan rumus yang berfungsi pada semua data dalam grup. Misalnya, bila membuat total selama setahun, Anda membuat agregasi. Jika kemudian rasio tahun ini lebih dari tahun sebelumnya dan ditampilkan sebagai persentase, agregasi tersebut memiliki tipe berbeda.

Untuk memperjelas mekanisme pengelompokan, kita gunakan contoh tabel P berikut, yang bisa
anda dapatkan dengan menggunakan SQL query pada halaman terakhir bagian ini:




1.      Penggunaan fungsi agregasi tanpa pengelompokan berarti melakukan agregasi dari seluruh data. SELECT max(thnakademik) as thnambilterakhir FROM P (akan mengambil tahunakademik terbesar yaitu '2004/2005')

2.      Penggunaan fungsi agregasi dengan pengelompokan berdasar pada kolom berarti melakukan pengelompokan dengan aturan dasar record-record yang memiliki nilai sama untuk kolom tersebut sebagai satu kelompok, dan bila nilai kolom pengelompokan tidak sama maka berada kelompok yang berbeda. Selanjutnya agregasi akan dilakukan untuk masing-masing kelompok data.

      ( a )  Agregasi berdasar satu kolom
             SELECT max(thnakademik), nilai FROM P GROUP BY nilai

       akan membentuk kelompok seperti gambar di bawah ini:




       sehingga hasil dari query di atas adalah:



Sumber :


Sabtu, 11 Oktober 2014

PERUBAHAN DARI DATABASE MENJADI STAR/SNOWFLAKE SCHEMA PADA PENJUALAN “TOKO BUKU XYZ”


A.    GAMBAR TABEL














   



B. CUBE

Dengan cube data menjadi lebih mudah untuk dimanipulasi. Setiap sumbu cube mewakili dimensi-dimensi. Terdapat measure yaitu nilai quantitative database yang ingin kita analisa. Biasanya measure berupa nilai penjualan, biaya, budget dan sejenisnya. Measure dihitung berdasarkan dimensi-dimensi dari cube. Misalkan kita ingin meganalisa penjualan buku, total penjualan (sebagai measure) untuk suatu jenis buku tertentu (dimensi) pada lokasi / toko buku yang berbeda-beda (lokasi dapat dipilih sesuai dengan kebutuhan seperti negara, propinsi dll) pada suatu periode waktu tertentu (hari, minggu, bulan,tahun, kuartal).





C. STAR SCHEMA




D. SNOWFLAKE SCHEMA

Model snowflake merupakan perluasan dari star dimana ia juga mempunyai satu atau lebih dimensi. Hanya saja pada snowflake, tabel yang berelasi pada fact table hanya tabel dimensi utama, sedangkan tabel yang lain dihubungkan pada tabel  dimensi utama. Model snowflake ini hampir sama seperti teknik normalisasi


Senin, 06 Oktober 2014

Analisa Skema Data Warehouse pada Penjualan Produk dan Penerapan Dalam Studi Kasus Divisi Greenscope Energy – PT. Tustika Nagata Surabaya


Membuat star schema.

Pada tahapan ini akan dilakukan perancangan star schema dan Desain Extract, Transformation, Loading (ETL) dikarenakan data warehouse menggunakan model data dimensional atau sering disebut sebagai star schema. Star schema mempunyai dua bagian, yaitu tabel fakta dan tabel dimensi. Setelah star schema dibuat maka proses selanjutnya adalah melakukan proses ETL dari database operasional ke database data warehouse. Sebelum proses ETL ini diproses harus dibuat dulu desain untuk proses ETL-nya.



Sabtu, 27 September 2014

Pengembangan Datawarehouse pada suatu perusahaan

Abstarksi
Dengan semakin berkembangnya banyak perusahaan manufaktur di Indonesia, akan sangat berpengaruh terhadap daya saing bagi perusahaan, sehingga perusahaan dituntut agar dapat memantau setiap proses penjualannya. Hal  ini yang menyebabkan Greenscope Energy – PT. Tustika Nagata Surabaya dimana perusahaan tersebut menghasilkan suatu barang atau benda yang bernilai guna bermula dari material kasar yang dikerjakan sesuai keinginan konsumen sehingga tercipta produk barang yang sesuai dengan apa yang diinginkan. Berdasarkan dari tahun ke tahun penjualan produk di Greenscope Energy – PT. Tustika Nagata Surabaya mengalami peningkatan yang signifikan. Namun lebih dari itu pihak manajemen mengalami kesulitan dalam mengelola laporan data penjualan dengan banyaknya berkas-berkas yang secara umum masih manual, sehingga dibutuhkan struktur penyimpanan data yang dapat memperbaiki efisiensi pengolahan dan penggalian data, terutama dalam membangun sebuah pola hubungan antar data yang dimaksud disini adalah data warehouse agar dapat memantau proses penjualan secara realtime serta penggunaan association rule mining.
Analisis
a.  Tujuan Pembangunan Sistem Datawarehouse
   Seluruh pencatatan penjualan yang dilakukan oleh PT. Greenscope Energy masih bersifat manual, yaitu menggunan metode  paper work system yaitu seluruh aktifitas laporan penjualan masih menggunakan kertas yang dibantu dengan aplikasi Ms. Office, metode tersebut dianggap kurang efektif sehingga PT. Greenscope Energy mengharapkan adanya sebuah dukungan teknologi dalam mengelola data penjualan yang sangat besar.
   Datawarehouse pada penelitian ini dibangun berdasarkan kebutuhan bagi PT. Greenscope Energy untuk dapat memiliki system pengumpulan yang baik sehingga dapat mengetahui  proses-proses transaksi penjualan dengan lebih mudah berdasarkan kebutuham yang diinginkan oleh PT. Greenscope Energy.
b.   Perancangan dan pembuatan datawarehouse
Pada bagian ini akan dilakukan perancangan  datawarehouse  yang selanjutnya akan                dilakukan pembuatan datawarehouse.
 Hasil pembuatan datawarehouse, dapat ditunjukkan oleh star schema pada gambar dibawah ini.



















Senin, 22 September 2014

Datawarehouse Pert. 2


DATA MART

Seperti yang telah dijelaskan sebelumnya Data Mart merupakan bagian dari data warehouse. Tetapi data mart memiliki karateristik yang sama dengan data warehouse, yang membedakan keduanya adalah Data mart ini digunakan untuk kepentingan cabang atau departemen dari suatu perusahaan atau organisasi. Jadi cakupan datanya lebih sempit dari data warehouse.

Walaupun demikian data mart juga memiliki banyak kelebihan. Kelebihan dari data mart ini diantaranya itu meningkatkan kinerja system komputer karena dia hanya fokus dalam satu pekerjaan dan dia juga memiliki historis data dimana kita dapat menganalisis ketidaktepatan suatu data. Namun data mart juga memiliki kekurangan, diantaranya adalah yaitu nilai yang dimiliki terbatas pada departemennya saja, dia tidak bisa melihat secara keseluruhan perusahaan atau organisasinya maka dari itu laporan dan potensi analisisnya sangat terbatas.

METADATA

Metadata adalah salah satu aspek terpenting data warehousing dan sebagai srtruktur informasi yang menjelaskan sebuah informasi untuk mudah ditemukan kembali dan dikelola.

Contoh adalah di perpustakaan yang memerlukan metadata koleksinya agar proses penelusuran informasi lebih mudah maka dibuat katalog koleksi misalnya katalog buku. Di katalog tersebut di catat semua data yang penting yaitu Pengarang, Judul Buku, Tempat dan Tahun terbit, Subyek, Nomor klasifikasi, dan Tajuk Subyek.


Perbedaan Data Mart dan Data Warehouse