TEORI DAN LATIHAN STAT PARAMETRIK VOL 3

Oleh:  M.A.Yulianto.*)

Uji t untuk 2 sampel independen

Jika  tidak diketahui dan sample besar, maka varians populasi dapat diestimasi dengan menggunakan varians sampel dan statistik ujinya dapat tetap menggunakan uji Z.

 Jika  tidak diketahui dan sample kecil,  maka varians populasi dapat diestimasi dengan menggunakan varians sampel dan statistik ujinya menggunakan uji t.   Ada 2 asumsi yang harus diperhatikan:

Uji ANOVA satu arah

Pengujian ini digunakan ketika sampel diambil secara independen untuk setiap populasi. Rata-rata dan varians populasi tidak diketahui, untuk setiap sampel dapat dihitung rata-rata dan variansnya. Pada pengujian ini mengasumsikan bahwa variabel random mengikuti distribusi normal dan varians populasi sama. Jika ada pelanggaran asumsi  maka uji ANOVA dapat diganti dengan uji Kruskal-Wallis (uji ini akan dibahas pada tulisan sesi yang lain). Begitu juga dengan uji asumsi kenormalan dan kesamaan varians akan dibahas pada tulisan sesi yang lain.  Hipotesa untuk pengujian k populasi ditulis sebagai berikut:

dimana:   MSB adalah  Mean Square Between

MSW adalah Mean Square Within

Jika anda sebagai analis atau pengambil keputusan memutuskan untuk menolak hipotesa nol, maka uji ANOVA ini dapat dilanjutkan dengan prosedur komparasi berganda (multiple comparation procedures) seperti prosedur LSD dan Tukey-Kramer untuk melihat rata-rata dari populasi mana yang berbeda (prosedur ini akan dibahas pada sesi tulisan yang lain).

Tabel Anova dibawah ini akan menjelaskan prosedur pengujian lebih rinci.

Regresi dan korelasi

Analisa regresi adalah suatu teknik statistik yang menggunakan hubungan antara dua variabel atau lebih untuk mendapatkan garis yang fit sehingga satu variabel dapat diprediksi atau diestimasi berdasarkan variabel lainnya.  Misal, jika seseorang mengetahui hubungan antara biaya iklan dengan penjualan, maka orang tersebut dapat memprediksi hasil penjualan dengan menggunakan analisa regresi jika pengeluaran iklan sudah ditentukan.  Tujuan model regresi ini adalah untuk mendapatkan suatu bentuk hubungan antara variabel yang akan diestimasi (dependent variable) dengan variabel bebas (independent variable) dan menggunakan model tersebut untuk mengestimasi nilai dari variabel yang akan di estimasi.  Misal seorang manajer ingin melihat hubungan antara biaya iklan perusahaannya dengan hasil penjualan perusahaannya, ingin menguji hipotesa bahwa dengan bertambahnya biaya iklan maka hasil penjualannyapun akan bertambah dan lebih jauh ingin memperkirakan/estimasi seberapa kuat hubungannya.

Model regresi mengasumsikan bahwa faktor-faktor yang diramal menunjukkan adanya suatu hubungan sebab akibat (cause-effect relationship) dengan satu atau lebih variabel bebas (independent variable). Model causal lebih digunakan untuk pengambilan keputusan (decision making) dan kebijaksanaan (policy).  Konsep sebuah hubungan antara dua variabel, kita kenal dengan hubungan fungsional dan hubungan statistik.  Sebuah hubungan fungsional antara dua variabel dinyatakan dengan sebuah formula matematika.  Jika X adalah variabel bebas (independent variable) dan Y adalah variabel tidak bebas (dependent variable), sebuah hubungan fungsional dapat ditulis sebagai berikut:

                                                Y = f(X)

untuk nilai X tertentu, fungsi f merupakan nilai dari Y

Contoh:

hubungan antara hasil penjualan (Y) dengan jumlah unit yang terjual (X).  Jika harga penjualan adalah Rp 2.000 per unit, dan hubungan diatas dinyatakan dengan persamaan  Y = 2X   maka hubungan fungsional ini dapat ditunjukan seperti pada tabel dibawah ini

Sebuah hubungan statistik tidak seperti hubungan fungsional, hubungan ini tidaklah sempurna (exact).  Secara umum observasi-observasi untuk sebuah hubungan statistik tidak berada (jatuh) tepat pada garis hubungan.

Pada Gambar.1. terlihat adanya hubungan antara jumlah produksi dengan lamanya jam kerja. Makin besar produksi makin lama jam kerjanya. Namun jika kita perhatikan, hubungan tersebut bukanlah merupakan hubungan yang sempurna. Disana terlihat adanya sebaran, adanya variasi jam kerja pada tiap-tiap jumlah produksi, seperti pada X=30 dan X=80.  Oleh karena adanya sebaran titik-titik pada sebuah hubungan statistik, maka plot tersebut disebut diagram pencar/sebaran (scatter diagram) dalam istilah statistik.  Jika kita buat garis hubungan yang menyatakan hubungan secara statistik antara lamanya jam kerja dengan jumlah produksi seperti terlihat pada Gambar.1, sebagian besar titik-titik tersebut tidak berada tepat pada garis.  Sebaran titik-titik disekitar garis mewakili variasi pada jam kerja yang tidak berhubungan (tidak dipengaruhi) oleh jumlah produksi dan ini cenderung disebabkan karena sifat random (acak) secara alamiah.  Hubungan statistik tetap berguna meskipun tidak adanya hubungan fungsional yang secara tepat (exact).  Sebaran titik-titik sekitar garis hubungan itulah yang merupakan ciri-ciri dari sebuah hubungan statistik. Dari gambar . 2  terlihat bahwa rata-rata dari distribusi probabilita mempunyai hubungan yang sistematik pada level X.  Hubungan sistematik inilah yang dikatakan fungsi regresi dari Y terhadap X.  Garis dari fungsi regresi ini disebut garis regresi.  Fungsi regresi diatas adalah linier.  Berdasarkan contoh diatas dapat kita katakan bahwa rata-rata harapan (expected mean) lama jam kerja berubah-ubah secara linier dengan jumlah produksi.

Sebuah model regresi adalah:

–  Sebuah distribusi probabilita dari Y untuk setiap level X

– Rata-rata dari distribusi-distribusi probabilita tersebut berbeda dalam bentuk yang sistematis dengan X.

Model regresi mungkin saja terdiri dari lebih dari satu variabel bebas, misal dengan dua variabel bebas X1 dan X2.  Hubungan antara rata-rata dari distribusi probabilita ini dengan variabel bebas (X1 dan X2) ditentukan dalam sebuah regresi permukaan (surface) dalam suatu bidang tiga dimensi.

Pada kenyataannya dalam membuat sebuah model, hanya beberapa variabel bebas tertentu yang dapat digunakan pada sebuah model regresi pada situasi tertentu.  Masalah pokok disini adalah pemilihan variabel bebas untuk model regresi sehingga model tersebut dapat digunakan dengan baik untuk kepentingan analisa. Yang perlu diperhatikan dalam pemilihan variabel bebas ini adalah:

            1.         Variabel-variabel yang akan terpilih dalam model harus dapat mengurangi variasi yang tersisa pada variabel tidak bebas Y

2.         Variabel yang terpilih adalah variabel yang penting dalam proses analisa

3.         Tingkat keakuratan dalam mendapatkan variabel-variabel tersebut.

Korelasi Pearson

Statistik ini merupakan suatu ukuran asosiasi atau hubungan  yang dapat digunakan untuk menyatakan besar hubungan linier antara dua variabel ketika data adalah data kuantitatif (data berskala interval atau rasio) dan kedua variabel adalah bivariat yang berdistribusi normal, sedangkan statistik untuk mengukur hubungan dua variabel yang bersifat kualitatif dengan skala ordinal dapat menggunakan korelasi Spearman (materi ini dibahas pada pertemuan kesembilan. selain untuk melihat besar hubungan antar dua variable kualitatif, korelasi ini juga dapat digunakan untuk menguji aumsi kesamaan varians). Simbol korelasi pada ukuran populasi adalah  ρ  (dibaca: rho) dan pada ukuran sampel adalah r.  Formula untuk korelasi Pearson adalah sebagai berikut:

Besar hubungan linier antara produksi dan jam kerja karyawan pada perusahaan industri tersebut adalah sebesar 0,9978 atau sebesar 99,78 persen. Jika nilai korelasi dikuadratkan akan didapat suatu nilai yang menyatakan besarnya pengaruh variasi suatu variabel terhadap variabel lainnya. Nilai tersebut biasa disebut dengan koefisien determinasi (r2) (coefficient of determination). Koefisien determinasi mempunyai range nilai berkisar antara 0 sampai 1.  Dalam hal contoh diatas, variasi produksi mempunyai pengaruh sebesar 99,56 persen terhadap variasi jam kerja karyawan pada perusahaan tersebut.

Bentuk model regresi linier sederhana

Model regresi linier dengan satu variabel bebas adalah sebagai berikut:

Asumsi standar adalah error berdistribusi normal. Sedikit penyimpangan dari kenormalan tidaklah menyebabkan masalah yang serius. Namun penyimpangan yang jauh dari kenormalan haruslah diperhatikan. Kenormalan dari random error dapat dipelajari dengan melihat beberapa grafik dari residu. Box plot sangat membantu untuk mendapatkan informasi tentang kesimetrisan dari residu dan kemungkinan adanya pencilan (outliers).  Selain box plot, kita juga dapat membuat histogram, diagram pencar, atau plot batang daun dari residu untuk melihat penyimpangan dari kenormalan secara umum.  Namun untuk itu diperlukan jumlah sampel yang cukup besar untuk studi regresi agar dapat memberikan informasi yang baik tentang bentuk distribusi dari random error.  Cara lain untuk melihat kenormalan adalah dengan uji Lilliefors atau dengan uji kecocokan/kesesuaian (goodness of fit test).  Jika asumsi tidak terlanggar dapat dikatakan bahwa dasar data yang digunakan sudah benar.

Latihan 1

Berikut ini adalah gaji karyawan PT.”Piti Moro” per bulan. Dengan tingkat signifikan  0,05  ujilah apakah ada perbedaan antara gaji karyawan wanita dengan karyawan pria?

Gaji karyawan wanita (dalam 000 Rp.):

4100    2900    3350    3600    2850    3700    3150    3200    3450    3900    2750    3300    4200    4250    3950

4550    4400    4800    4700    3900

Gaji karyawan pria (dalam 000 Rp.):

3100    3250    3950    3550    3400    3800    3700    3450    3900    3250    3300    3250    4800    4700    3900

4100    3750    3550    3650    4325    3450    4100    3550    4250

Latihan 2

Sebuah perusahaan minuman “diet soda” sedang memikirkan tiga warna alternatif untuk minuman kalengnya yaitu: merah, kuning, dan biru.  Untuk mengecek apakah warna kaleng akan mempengaruhi penjualan, 21 toko yang mempunyai fasilitas hampir sama dipilih sebagai sample.  Minuman dengan kaleng warna merah dijual dienam toko terpilih, kaleng warna kuning dijual dilima toko lainnya dan kaleng warna biru dijual disisa toko lainnya.  Setelah beberapa hari, jumlah penjualan pada setiap toko dicatat, hasilnya seperti dibawah ini (dalam ratusan kaleng):

            Merah              :  63,  42,  59,  73,  61, 81,  90,  55.

Kuning            :  57,  32,  38,  86,  54, 45.

Biru                 :  71,  29,  48,  64,  79,  81, 72.

Ujilah hipotesa yang menyatakan bahwa rata-rata tingkat penjualan adalah sama untuk tiga warna tersebut dengan tingkat signifikansi 0,05.

Latihan  3

Data hasil penjualan ( Y ) dan biaya iklan ( X ) suatu produk adalah sebagai berikut (dalam satuan ribuan dollar):

  1. Buatlah model regresi linier dari data diatas ?
  2. Ujilah slope dari model butir.a dengan   α= 0,05, berikan kesimpulan saudara ?
  3. Berapa besar koefisien korelasi dari dua variabel diatas ?

Sampai bertemu pada sesi tulisan yang lain, selamat menikmati statistik.

Jika ada pertanyaan dapat di kirim ke alamat e-mail:  yuliantoyorki@yahoo.com

*)  Penulis adalah dosen di Sekolah Tinggi Ilmu Statistik, Jakarta.

2 thoughts on “TEORI DAN LATIHAN STAT PARAMETRIK VOL 3

  1. It is the best time to make a few plans for the long run and it’s time to be happy. I have read this publish and if I may I want to recommend you some interesting issues or suggestions. Perhaps you can write subsequent articles referring to this article. I wish to learn more things about it!

  2. Thank you for another wonderful post. Where else may just anyone get that type of information in such an ideal way of writing? I’ve a presentation subsequent week, and I am on the look for such information.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s