Tag Archives: Statistika

Analisis Komponen Utama (Principal Component Analysis/PCA)

Analisis Komponen Utama (Principal Component Analysis)

Analisis komponen utama (AKU) adalah salah satu metode yang digunakan untuk mengatasi permasalahan ketika kita menghadapi begitu banyaknya dimensi gugus data yang diperoleh dalam sebuah penelitian. Banyaknya sumber daya data yang kita peroleh seringkali mengakibatkan tumpang tindih antara data yang satu dengan data yang lainnnya, AKU mampu mempertahankan sebagian besar informasi yang diukur dengan menggunakan sedikit peubah yang menjadi komponen utamanya saja.

Sebagai contoh analisis komponen utama dapat digunakan peneliti yang sedang melakukan pengamatan karakterisasi tanaman. Akan ada begitu banyak gugus data yang diperoleh seperti tinggi tanaman, jumlah daun, panjang dan lebar daun, jumlah batang, panjang batang, diameter batang, jumlah tunas, dan masih banyak yang lainnya. Tentunya peneliti menginginkan data yang diperoleh tidak sebanyak data tersebut namun tanpa kehilangan informasi yang diukur.

Menentukan banyaknya komponen utama dapat ditentukan dengan tiga metode yaitu berdasarkan kumulatif proporsi keragaman total, menggunakan matriks korelasi dan penggunaan grafik/plot scree.

Ada banyak aplikasi/software statistik yang dapat kita gunakan untuk menentukan jumlah komponen utama saat ini saya akan mencoba menggunakan aplokasi SAS untuk menentukan banyaknya komponen utama. Prosedur PRINCOMP merupakan prosedur yang biasa digunakan dalam mengerjakan analisis komponen utama. Bentuk perintahnya adalah :

PROC PRINCOMP;

VAR variables;

RUN;

Berikut ini ilustrasi penggunaan aplikasi SAS untuk analisis komponen utama.

Sejumlah benih mendapatkan perlakuan radiasi sinar gamma untuk memperoleh mutan tanaman jeruk yang memiliki keragaman yang tinggi. Keragaman yang diperoleh dapat digunakan untuk bahan seleksi sehingga diperoleh tanaman jeruk unggul. Benih tanaman jeruk hasil radiasi ini ditanaman pada sepetak lahan kemudian diamati karakter vegetatifnya. Dari sejumlah benih yang ditanam dalam beberapa bulan setelah tanamn ternyata hanya 10 tanaman jeruk yang mampu bertahan.

Langkah pertama adalah kita harus memasukan data terlebih dahulu seperti di bawah ini :

Jeruk

Keterangan     : TT=Tinggi tanaman, JB=jumlah batang, DB=Diameter batang, JD=Jumlah daun, PDL=panjang daun terluas, PDS=Panjang daun tersempit, LDL=Lebar daun terluas, LDS=Lebar daun tersempit, PPL=panjang petiole daun terluas, PPS=panjang petiole daun tersempit, BB=Bobot buah.

Catatan          : Dalam analisis yang sesungguhnya sebaiknya perlu dilakukan eksplorasi data lengkap termasuk pembuatan plot dan grafik analisis korelasi dan statistika deskriptif. Pada ilustrasi ini kita lakukan korelasi antar peubah yang terlibat seperti di bawah ini :

Jeruk2

Keluaran dari perintah di atas adalah :

Korelasi Jeruk

Jika kita amati secara seksama tabel korelasi di atas kita lihat bahwa beberapa peubah saling berkorelasi. Misalnya saja tinggi tanaman berkorelasi dengan diameter batang dengan koefisien korelasi sebesar 0,48032. Selanjutnya, untuk memperoleh komponen utama perintah yang diberikan adalah :

Jeruk3

Out put yang dihasilkan terdiri atas beberapa bagian yang perlu dicermati. Pertama, PROC PRINCOMP membuat daftar banyaknya peubah dan objek yang diamati (Gambar). Selanjutnya PROC PRINCOMP menampilkan akar ciri dan vektor ciri dari matrix korelasi. Akar ciri dapat diinterpretasikan sebagai ragam dari kombinasi-kombinasi komponen dan vektor ciri sebagai bobot yang digunakan untuk menyusun skor komponen utama.

Jeruk4

Jeruk5

Komponen utama pertama mengandung hampir 50% keragaman data asal dan empat komponen pertama mampu menjelaskan hampir 95% keragaman data. Masing-masing komponen sisanya hanya memiliki kontribusi keragaman kurang dari lima persen, ini berarti kita bisa membuang komponen-komponen akhir, kita hanya empat komponen pertama tanpa kehilangan banyak informasi.

Output hasil selanjutnya adalah sebagai berikut :

Jeruk6

Vektor-vektor ciri dapat diinterpretasikan sebagaikoefisien yang menyusun skor komponen dari data terpusat. Jika kita melihat besarnya koefisien pada KU terlihat bahwa nilai koefisien ada yang bernilai negatif dan positif, hal ini wajar dalam analisis komponen utama. Dengan melihat nilai dari vektor ciri tersebut maka diperoleh :

KU1 TT, PDL, LDL, dan LDS.
KU2 PPL dan PPS.
KU3 DB dan BB.
KU4 JB, JD dan PDS.

 Demikian ulasan singkat analisis komponen utama, semoga bermanfaat 🙂

Membuat SAS data set, melihat dan mencetak data (1)

Data yang akan dianalisis disebut dengan SAS data set. Cara yang dapat kita lakukan untuk membuat data set baru yaitu dengan menuliskan data pada program editor. Perintah yang digunakan untuk membuat data dengan cara ini adalah sebagai berikut :

Data
Input ….;
Datalines;

Run;

Sebagai contoh apabila kita membuat data ukurantanaman yang terdiri dari empat kolom yaitu nama tanman, tinggi (dalam cm), bobot (dalam gram), warna buah (1 untuk hijau dan 2 untuk merah), maka perintah dapat diberikan antara lain ditampilkan pada gambar 1.
SAS1

Dari penulisan data pada editor di atas ada beberapa yang harus diperhatikan :
1. Satu buah pernyataan selalu diakhiri dengan tanda titik koma;
2. Nama data atau variabel selalu diawali dengan karakter berupa abjad atau garis bawah, karakter keduadan seterusnya dapat berupa abjad, angka atau garis bawah.
3. Ada empat variabel pada data ukuran tanaman yaitu namatan, tinggitan, bobot dan warna. Nama variabel tersebut harus disebutkan pada pernyataan input.
4. Perhatikan bahwa setelah variabel namatan terdapat karakter $ yang menunjukan bahwa peubah ini bertipe string atau teks, sedangkan variabel lainnya tidak diikuti tanda $ yang berarti variabel bertipe numerik/angka.
5. Baris nilai data muncul setelah kata cards
6. Tidak ada tanda titik koma pada setiap baris data, tanda ini hanya diperlukan pada baris terakhir data.

Program di atas dapat dijalankan dengan menekan tombol submit pada toolbar atau dengan menekan tombol F8 pada keyboard. Pada jendela Log akaSAS2n terlihat laporan bahwa sebuah data set baru telah dihasilkan.

 

Untuk melihat isi dari data tersebut dapat menggunakan Proc print yang outputnya berupa cetakan semua isi data pada file tertentu pada jendela output dengan perintah.

Proc print data=ukurantanaman;

Run;

SAS3

Cara lain yang dapat digunakan adalah klik ganda pada icon libraries, cari dan klik ganda pada icon librari work, cari dan klik ganda pada icon data ukurantanaman.

SAS4

Sementara itu apabila kita ingin melihat nama-nama variabel dan informasi lain kita dapat menggunakan proc contents. Mengetahui nama variabel ini penting karena nama tersebut harus kita sebutkan dalam banyak perintah berikutnya.

Proc contents data=ukurantanaman;

Runs;

Menentukan LD 50 (Analisis Probit)

analisis probit mulai diperkenalkan oleh Chester Ittner Bliss (1899-1979) pada tahun 1934 dalam sebuah artikel Science tentang bagaimana mengolah data persentase pengaruh pestisida terhadap hama. Sebagai unit persentase tewas dikenal dengan istilah “probabilitas unit” (atau “probit”).

Langkah pertama adalah buka program MINITAB 14. Pada tampilan akan terdapat dua bagian yaitu ‘Session’ di bagian atas dan ‘Worksheet’ pada bagian bawahnya. Bagian worksheet terdiri dari kolom-kolom C1, C2, C3… dst, serta baris 1,2,3,…dan seterusnya.

Langkah selanjutnya memasukan angka ke dalam worksheet:

  • Untuk memudahkan dalam proses input data dan menerjemahkn data beri keterangan di bawah kolom C1, C2, C3, C4 masing masing dengan Mortalitas, Konsentrasi, Ulangan, dan n seperti yang saya tuliskan di bawah ini :

C1

dalam

C3

C4

Mortalitas

Konsentrasi

Ulangan

n

1

2

  • Bila anda menggunakan data BSLT maka isi Kolom ‘Mortalitas’ (C1) dengan jumlah larva yang mati setelah diberikan perlakuan pada konsentrasi dan ulangannya.
  • Kolom ‘Konsentrasi’ (C2) diisi dengan mengurutkan data konsentrasi. Sebaiknya data konsentrasi diisi dari konsentasi rendah sampai tinggi untuk setiap ulangannya.
  • Kolom ‘Ulangan’ (C3) diisi sesuai dengan ulangan ke-n data tersebut.
  • Kolom ‘n’ (C4) diisi dengan jumlah larva pada setiap perlakuan

Misalnya dilakukan percobaan dengan perlakuan menggunakan konsentrasi 10, 100, 500, dan 1000 ppm, dengan 3 ulangan (missal U1, U2 dan U3), jumlah larva pada setiap perlakuan 10 ekor, dihasilkan data jumlah larva mati. Maka akan diperoleh input data sebgai berikut :

Setelah data selesai dimasukkan selanjutnya buka aplikasi ‘Probit Analysis’ dengan klik panel ‘Stat’ kemudian klik ‘Reliability/Survival’ kemudian klik ‘Probit Analysis’, sehingga akan muncul tampilan Probit Analysis. Masukan “number of events” dengan data mortalitas, terus “number of trials” nya diisi data n, stress (stimulus) diisi konsentrasi.

Klik panel ‘Estimate’ pada pojok kanan atas dan akan muncul tampilan Estimate. Pada tampilan ini bagian ‘Estimate percentile for these additional percents’ diisi dengan 50, pada ‘Confidence intervals’ pilih “fiducial”, kemudian isi ‘Confidence level’ sesuai dengan tingkat kepercayaan yang diinginkan, misalnya untuk tingkat kepercayaan 95% maka ketik 95,0. Pada bagian ‘Confidence Interval’ di bawahnya pilih “two-sided”. Selebihnya bagian yang lain dikosongkan saja kemudian klik ‘OK’

Untuk memilih grafik yang diinginkan klik panel ‘Graphs’ pada tampilan Probit Analysis dan pilih jenis grafik yang diinginkan

Sebagai contoh untuk data di atas tampilan data statistik pada ‘Session’ hasil operasi dengan Probit Analysis  adalah sbb

Probability Plot for Mortalitas

  Parametric Survival Plot for Mortalitas

 Angka yang tercetak merah merupakan nilai konsentrasi LD-50