Minggu, 14 Desember 2014

Star Schema, Snowflake Schema,Starflake Schema

RESUME PERTEMUAN 5
PENGERTIAN, KOMBINASI, KELEBIHAN dan KEKURANGAN STAR dan SNOWFLAKE SCHEMA

A.    Pengertian
1)      Star Schema

Menurut Connolly dan Begg (2010:1227), star schema adalah model data dimensional yang mempunyai fact table di bagian tengah, dikelilingi oleh tabel dimensi yang terdiri dari data reference (yang bisa di-denormalized). Star schema mengambil karakteristik dari factual data yang di-generate oleh event yang terjadi dimasa lampau.


2)      Snowflake Schema

Menurut Connolly dan Begg (2010:1229), Snowflake adalah jenis dari star schema dimana tabel dimensinya tidak mengandung denormalisasi.



B.     Kombinasi Starflake Schema
·         Menurut Connolly dan Begg (2010:1230), Starflake adalah struktur gabungan yang mengandung campuran dari star schema dan snowflake.
·         Berdasarkan dari kutipan pengertian ketiga schema diatas, dapat disimpulkan bahwa tabel fakta pada star schema dikelilingi oleh banyak dimensi dengan hubungan one-to-many, sedangkan pada snowflake tabel fakta terhubung banyak ke tabel dimensi, yang dimana dimensi tersebut dapat dihubungkan ke tabel dimensi lain, sedangkan starflake schema merupakan gabungan antara star schema dengan snowflake.

C.    Kelebihan dan Kekurangan
1.      Kelebihan Star Schema
a.       Efisiensi, struktur database konsisten sehingga efisien dalam mengakses datadengan menggunakan tool untuk menampilkan data termasuk laporan tertulis dan quer.
b.      Kemampuan untuk mengatasi perubahan kebutuhan, skema bintang dapatberadaptasi terhadap perubahan kebutuhan pengguna karena semua tabeldimensi memiliki kesamaan dalam hal menyediakan akses ke tabel fakta.
c.        Extensibilit, model dimensional dapat dikembangkan. Seperti menambah tabelfakta selama data masih konsisten, menambah tabel dimensi selama ada nilaitunggal di table dimensi tersebut yang mendefinisikan setiap record tabel fakta yang ada,  menambahkan attribute tabel imensi, dan memecah record tabeldimensi yang ada menjadi level yang lebih rendah daripada level sebelumnya.
d.      Kemampuan untuk menggambarkan situasi bisnis pada umumnya, pendekatan standar untuk menangani situasi umum di dunia bisnis yang terus bertambah.
e.       Proses query yang bisa diprediksi, aplikasi data warehouse yang mencari datadari level yang di bawahnya akan mudah menambahkan jumlah attribute padatabel dimensi dari sebuah skema bintang. Aplikasi yang mencari data dari levelyang setara akan menghubungkan tabel fakta yang terpisah melalui tabeldimensi yang dapat diakses bersama.

2.      Kelebihan Snowflake Schema
a.       Ukuran penyimpanan kecil didalam tempat penyimpanan.
b.      Struktur yang normal lebih mudah untuk di-update dan di-maintenance.
3.      Kelebihan Starflake Schema
a.       Efisien dalam hal mengakses data.
b.      Dapat beradaptasi terhadap kebutuhan-kebutuhan.
4.      Kekurangan Star Schema
a.       Ukuran penyimpanan relatif lebih besar. Karena ada data yang berulang sehingga disk space yang digunakan lebih banyak.
b.      Maintenance dan update lebih sulit. Karena tabel yang tidak normal.
5.      Kekurangan Snowflake Schema
a.       Kurang jelas dan penggunaan akhir terhambat oleh kompleksitas.
b.      Sulit untuk mencari isi, karena kompleks.
c.       Performa query  menurun karena adanya join table antar dimensi.

6.      Kekurangan Starflake Schema
a.       Tidak fokus dalam pemrosesan data.



Referensi :
1.      file .doc dari library.binus.ac.id/
2.      file .doc dari zakki.dosen.narotama.ac.id/

Sabtu, 13 Desember 2014

Rancang Bangun Datawarehouse

RESUME PERTEMUAN 4



Untuk membangun data warehouse analisis kinerja penjualan maka dibutuhkan seperangkat komputer yang dilengkapin dengan software berupa Windows XP sebagai sistem operasi dan Microsoft SQL 2008 R2 sebagai aplikasi untuk membangun data warehouse itu sendiri.

Rancangan Arsitektur Data Warehouse Penjualan Di PT. Semen Padang :

Arsitektur data warehouse penjualan di PT. Semen Padang dimulai dengan mengumpulkan data yang berkaitan dengan penjualan yang bersumber dari berbagai database seperti database penjualan, promosi, customer, dan produksi. Setelah data dari berbagai database dikumpulkan, terhadap data tersebut dilakukan ekstraksi sesuai dengan kebutuhan data warehouse yang akan dibangun. Seperti dari database penjualan, data yang dibutuhkan adalah data penjualan dari tahun 2010 – 2011, data wilayah penjualan, data tipe pembayaran dan jenis penjualan. Dari data yang sudah diekstraksi dilakukan proses transformasi data. Pada proses transformasi dilakukan proses seperti merapikan data yang tidak konsisten seperti pemberian kode customer, memperbaiki penamaan pada field, dan lain-lain.

Proses selanjutnya adalah data loading ke dalam gudang data yang sudah dibangun dengan menggunakan script yang ada di SQL. Sehingga terbentuklah sebuah data warehouse yang siap digunakan untuk menghasilkan informasi.
Dengan teknologi OLAP (OnLine Analytical Processing), dihasilkan beberapa view yang disesuaikan dengan kebutuhan user diantaranya analisis penjualan berdasarkan jenis semen tiap tahun, analisis penjualan berdasarkan wilayah penjualan tiap tahun, analisis penjualan berdasarkan plant pengantongan semen tiap tahun, analisis penjualan berdasarkan customer tiap tahun, analisis penjualan berdasarkan bulan penjualan, dan analisis penjualan berdasarkan tahun penjualan.

Gambar 3.2 merupakan kerangka kerja yang akan digunakan untuk membangun data warehouse penjualan di PT. Semen Padang yang dapat dijabarkan sebagai berikut :

1. Tahap Pengumpulan Data
Pada tahap ini yang dilakukan adalah mengumpulkan data yang berkaitan dengan kegiatan atau sistem penjualan di PT. Semen Padang. Adapun data yang dikumpulkan berasal dari berbagai sumber, diantaranya :
a, Bagian Sistem Informasi merupakan bagian di PT. Semen Padang yang menjadi data centre. Data yang dikumpulkan pada bagian sistem informasi adalah data penjualan tahun 2010 – 2011, data customer, data gudang semen, data jenis semen yang diproduksi, data tipe pembayaran, data jenis penjualan semen, data jenis pengiriman semen ke customer.
b. Bagian Penjualan merupakan bagian yang memiliki wewenang dan tanggung jawab untuk menangani segala kegiatan yang berhubungan dengan penjualan semen di PT. Semen Padang mulai dari pemesanan produk sampai menerima dan menyelesaikan keluhan-keluhan yang disampaikan pelanggan.Data yang dikumpulkan pada bagian penjualan adalah data promosi semen tahun 2010–2011, data keluhan pelanggan 2010–2011, data pelayanan customer 2010–2011.

Ref : http://core.kmi.open.ac.uk/download/pdf/11734570.pdf

Analisa dan Perancangan Datawarehouse

RESUME PERTEMUAN 3

ANALISIS DAN PERANCANGAN DATAWAREHOUSE
AKADEMIK PERGURUAN TINGGI BINA SRIWIJAYABERBASIS PENTAHO DATA INTEGRATION (PDI) KETTLE

1.      Tentang Pangkalan Data Perguruan Tinggi (PDPT)
Pangkalan Data Perguruan Tinggi (PDPT) merupakan informasi yang di sediakan oleh Direktorat Pendidikan Tinggi mengenai kegiatan akademik seluruh perguruan tinggi di Indonesia. untuk mendapat kan informasi PDPT, Direktorat Pendidikan Tinggi menugaskan Koordinator Perguruan Tinggi Swasta (KOPERTIS) sebagai perpanjangan tangan untuk memperoleh informasi mengenai PDPT dari Perguruan Tinggi Swasta di wilayahnya.

2.      Tentang Bina Sriwijaya (BINAS)
Bina Sriwijaya (BINAS) merupakan yayasan penyelenggara pendidikan di Sumatera Selatan. Dalam pelaksanaanya sebagai perguruan tinggi swasta di bawah naungan Kopertis Wilayah II, Binas melakukan Kegiatan rutin setiap semester yaitu pelaporan data PDPT ke Kopertis (Koordinator Perguruan Tinggi Swasta) wilayah II. Keterlambatan dalam melaporkan data PDPT dapat berpengaruh terhadap izin perguruan tinggi, kendala yang timbul adalah Pangkalan Data Perguruan Tinggi (PDPT) merupakan informasi yang di sediakan oleh Direktorat Pendidikan Tinggi mengenai kegiatan akademik seluruh perguruan tinggi di Indonesia. untuk mendapat kan informasi PDPT, Direktorat Pendidikan Tinggi menugaskan Koordinator Perguruan Tinggi Swasta (KOPERTIS) sebagai perpanjangan tangan untuk memperoleh informasi mengenai PDPT dari Perguruan Tinggi Swasta di wilayahnya.

3.      Extract, Transform and Lod (ETL)
Untuk menghasilkan datawarehouse dapat menggunakan Extract, transform, dan load (ETL) merupakan sebuah sistem yang dapat membaca data dari suatu data store, merubah bentuk data, dan menyimpan ke data store yang lain. Data store yang dibaca ETL disebut data source, sedangkan data store yang disimpan ETL disebut target.

4.      Pentaho Data Integration (PDI) Kettle
Aplikasi ETL tersedia di dalam Pentaho Data Integration (PDI) Kettle. Pentaho Data Integration (PDI) Kettle adalah software Open Source dari Pentaho yang dapat digunakan untuk mengintegrasikan data. Kettle menyediakan fasilitas ETL (Extraction, Transformation dan Loading). Kettle dapat digunakan untukmembersihkan data, loading dari file ke database atau sebaliknya dan migrasi antar aplikasi dalam volume besar. Versi komersial dari Kettle adalah Pentaho Data Integration (PDI).

5.      Profil Universitas
Bina Sriwijaya berdiri tahun 1999, yang didirikan oleh Irian Nasri dimana Bina Sriwijaya (BINAS) singkatan Bina Sriwijaya / Bimbingan Irian Nasri Pertamakali bertempat di Jln. Kebon Jahe No. 555 Palembang, dan sesuai dengan perkembangannya mulai dari Komputer 10 Unit dan sampai mencapai Ratusan Unit, serta pindah Jl. Merdeka N0. 3E Menempati Ruko 1 Unit, dengan liku-liku Perjuangan yang panjang akhirnya Berdiri Akademik Manajemen Informatika dan Komputer Bina Sriwijaya SK N0. 76/D/2008 dan sekarang Telah Terakreditasi BAN PT KEMDIKNAS 2011.
Yayasan Pendidikan Indonesia "Bina Sriwijaya" Akte Notaris Tahun 2001 dan didaftarkan di DEPHUMKAM No. 18 Tanggal 21 Juni Tahun 2010 dengan Dewan Pembina : H. Irian Nasri, M.pd Ketua Yayasan : Hj. Miaty Hermawati, M.Pd Pengawas Harian : Indra Wijaya, S.Si yang berkedudukan di Jl. A. Yani No.720, A,B,C.D 7 Ulu Palembang, Sumsel.
Yayasan Pendidikan Bina Sriwijaya (BINAS) Palembang, menyelenggarakan Pendidikan Tinggi yaitu Akademik Komputer BINA SRIWIJAYA terdiri dari 2 Program Studi yaitu Manajemen Informatika dan Teknik Komputer, dan Tahun 2012 Ini Yayasan Juga mengembangkan Sekolah dibawah naungan Diksispora Kota Palembang :
1)      SD BSI (BINA SRIWIJAYA INDONESIA) Palembang
2)      SMP BSI (BINA SRIWIJAYA INDONESIA) Palembang
3)      SMK BSI (BINA SRIWIJAYA INDONESIA) Palembang
4)      SMA BSI (BINA SRIWIJAYA INDONESIA) Palembang

6.      Metodologi Perancangan Data Warehouse
Metodologi perancangan data warehouse yang digunakan dalam penelitian ini adalah pemodelan data dimensional. Menurut Powell (2006), langkah-langkah membuat model data dimensional dimulai dari end-user. Karena end-user adalah pemakai informasi hasil query data warehouse. Dari perspektif tersebut, langkah-langkah dalam merancang data dimensional menurut Powell adalah sebagai berikut.
1) Proses bisnis (Business processes)
a. Menentukan dan menggambarkan subyek area bisnis dari functional requirement yang ada.
b. Subyek dianalisis sebagai dasar menentukan tabel fakta pada langkah selanjutnya.
2) Granularity
a.  Granularity adalah tingkat dari rincian kebutuhan.
b.  Pilihan yang paling aman menurut Powell adalah menyertakan semua data historis pada level yang terendah.
c.  Keuntungan menyertakan data level terendah adalah menghindari data yang hilang ketika dibutuhkan manajer eksekutif.
d.  Keuntungan lain adalah menghindari kekurangan data ketika dibutuhkan bahan analisis di masa datang meskipun untuk saat ini belum digunakan.
3) Identifikasi dan membentuk dimensi (Identify and build dimensions)
a.  Menentukan data-data yang dibutuhkan untuk mendukung subyek untuk dapat dibentuk dalam beberapa tabel dimensi.
b.  Tabel dimensi nantinya akan mendeskripsikan tabel fakta dengan menyimpan detil transaksi tabel fakta.

4)  Membentuk fakta (Build fact), pembentukan fakta atas dasar subyek yang telah ditentukan.

Referensi  :

Karakteristik Datawarehouse, Data Mart, Meta Data dan Data Mining

RESUME PERTEMUAN 2

KARAKTERISTIK DATAWAREHOUSE, DATA MART, META DATA dan DATA MINING


A. Karakteristik Datawarehouse
1. Subject Oriented (Berorientasi Subject
· Datawarehouse berorientasi subject artinya data warehouse didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi, bukan pada proses atau fungsi aplikasi tertentu.
· Datawarehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan (customers, products dan sales) dan tidak  diorganisasikan pada area-area aplikasi utama (customer invoicing, stock control dan product sales). Hal ini dikarenakan kebutuhan dari data warehouse untuk menyimpan data-data yang bersifat sebagai penunjang suatu keputusan, dari pada aplikasi yang berorientasi terhadap data.
· Jadi dengan kata lain, data yang disimpan adalah berorientasi kepada subjek bukan terhadap proses. Secara garis besar perbedaan antara data operasional dan data warehouse yaitu :

2. Integrated (Terintegrasi)
· Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri.
· Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik dari data.
· Contoh pada lingkungan operasional terdapat berbagai macam aplikasi yang mungkin pula dibuat oleh developer yang berbeda. Oleh karena itu, mungkin dalam aplikasi-aplikasi tersebut ada variable yang memiliki maksud yang sama tetapi nama dan format nya berbeda. Variable tersebut harus dikonversi menjadi nama yang sama dan format yang disepakati bersama. Dengan demikian tidak ada lagi kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah data tersebut bisa dikategorikan sebagai data yang terintegrasi karena kekonsistenannya.

3. Time-variant (Rentang Waktu)
· Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan dalam mengukur keakuratan suatu data warehouse, kita dapat menggunakan cara antara lain :
Ø  Cara yang paling sederhana adalah menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan.
Ø  Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse baik implicit maupun explicit secara explicit dengan unsur waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit didalam data tersebut.
Ø  Cara yang ketiga, variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai keinginan pemakai dari keseluruhan data yang ada bersifat read-only.

4. Non-Volatile
· Karakteristik keempat dari data warehouse adalah non-volatile, maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara reguler. Data yang baru selalu  ditambahkan sebagai suplemen bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya.
· Berbeda dengan database operasional yang dapat melakukan update,insert dan delete terhadap data yang mengubah isi dari database sedangkan pada data warehouse hanya ada dua kegiatan memanipulasi data yaitu loading data (mengambil data) dan akses data (mengakses data warehouse seperti melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan updating data).


B.    Data Mart
1. Pengertian Data Mart
· Menurut Scheps (2008:208) Data Mart dapat menerima data dari data warehouse, atau secara langsung dari sistem transaksional. Data mart dapat menampilkan transformasi dan kalkulasi pada data yang sama dengan data warehouse. Tapi data mart selalu terbatas pada ruang lingkupnya dan tujuan bisnis.
· Menurut Turban, Sharda, Delen dan King (2011:53), data mart adalah subset dari data warehouse dan berfokus pada topik tertentu atau departemen, yang biasanya terdiri dari suatu subyek (misalnya pemasaran, operasi). Terdapat dua jenis data mart, antara lain:
a. Dependent Data Mart, adalah sebuah subset yang dibuat secara langsung dari data warehouse. Memiliki keuntungan dari penggunaan data model yang konsisten dan menyediakan kualitas data.
b. Independent Data Mart, adalah data mart yang mendukung konsep dari single enterprise-wide data model, tetapi data warehouse harus dibuat terlebih dahulu.
· Berdasarkan pengertian yang dijabarkan oleh para ahli diatas dapat disimpulkan bahwa pengertian data mart adalah subset dari data warehouse atau data secara langsung dari sistem transaksional yang berfokus pada topik tertentu atau departemen yang biasanya terdiri dari suatu subyek (misalnya pemasaran).


C. Meta Data
1. Pengertian Meta Data
Menurut Kimball dan Ross (2010:566), Metadata adalah semua informasi dalam lingkungan data warehouse yang bukan merupakan data itu sendiri. Metadata ini hampir sama dengan sebuah insiklopedia untuk data warehouse.

D. Data Mining
1. Pengertian Data Mining
· Menurut Han dan Kamber (2011:36), data mining adalah proses menemukan pola yang menarik dan pengetahuan dari data yang berjumlah besar.
· Menurut Vercellis (2009:77), data mining adalah aktivitas yang menggambarkan sebuah proses analisis yang terjadi secara iteratif pada database yang besar, dengan tujuan mengekstrak informasi dan knowledge yang akurat dan berpotensial berguna untuk knowledge workers yang berhubungan dengan pengambilan keputusan dan pemecahan masalah.
· Aktivitas data mining dapat dipisahkan menjadi 2, berdasarkan tujuan dari analisis yaitu:
a. Interpretasi : Tujuan dari interpretasi adalah untuk mengetahui pola dari data dan menghasilkannya dalam bentuk aturan dan kriteria yang dapat dimengerti eksekutif.
b. Prediksi : Tujuan dari prediksi adalah untuk mengestimasikan kejadian-kejadian yang terjadi di masa depan. Contohnya, perusahaan retail dapat menggunakan data mining untuk memprediksikan penjualan dari produk mereka di masa depan dengan menggunakan data-data yang telah didapatkan dari beberapa minggu.
· Berdasarkan pengertian yang dijabarkan oleh para ahli diatas dapat disimpulkan bahwa pengertian data mining adalah sebuah proses analisis yang terjadi secara interatif dan menemukan pola yang menarik, serta pengetahuan dari data yang berjumlah besar.

Referensi :
1.      file .doc dari library.binus.ac.id/
2.      file .doc dari zakki.dosen.narotama.ac.id/