Category Archives: Statistika

Menyajikan data : Boxplot

Mempelajari karakteristik dan distribusi data dapat dilakukan dengan beberapa teknik. Salah satu diantaranya adalah melalui penggunaan box plot. Box plot atau boxplot (diagram box-and-whisker) merupakan suatu kotak berbentuk bujur sangkar. Melalui penggunaan boxplot kita dapat mendeskripsikan data numeris melalui grafik dalam beberapa ukuran yaitu  yaitu: nilai observasi terkecil, kuartil terendah atau kuartil pertama (Q1), median (Q2) atau nilai pertengahan, kuartil tertinggi atau kuartil ketiga (Q3), dan nilai observasi terbesar. Selain itu, dalam boxplot juga ditunjukkan, jika ada, nilai outlier dari data yang telah kita observasi. Nilai outlier biasanya dicari sebagai langkah awal untuk melihat kenormalan data yang kita miliki.

Pada kesempatan ini saya akan mencoba membuat boxplot dengan menggunakan program R dengan langkah-langkah sebagai berikut :

  1. Download file berikut: Data suku tanaman dan tinggi, kemudian dengan menggunakan Microsoft excel, ubah data tersebut ke format *.csv seperti yang telah dijelaskan pada tutorial sebelumnya. 
  2. Tahap selanjutnya silahkan buka RStudio dan masukkan data tersebut. Aabila saudara belum mengetahui cara memasukkan data di RStudio, saudara dapat       mempelajarinya di materi Cara Input Data Pada Rstudio.
  3. Apabila data sudah berhasil masuk ke dalam sistem, tampilan data tersebut akan terlihat di jendela View Files and Data seperti di bawah ini.Slide5
  4. Tulis kode berikut: names(Data1) pada jendela console untuk melihat daftar nama variable dalam data tersebut,  kemudian tulis kode berikut: attach(Data1) agar data tersebut dapat dikenali oleh RStudio.
  5. Tulis kode berikut boxplot(Tinggi..cm~Suku) kemudian tekan enter. Boxplot akan muncul pada jendela See Files, Plots, Packages, and Help. Jika saudara ingin menyimpan image dari boxplot tersebut, klik export > save as image pada jendela See Files, Plots, Packages, and Help. Saudara dapat mengganti format image tersebut ke dalam berbgai format seperti PNG, JPG dan BMP. Selamat Mencoba. 🙂

Slide6

Analisis Deskriptif dengan menggunakan RPrograme

Sebelum melakukan olah data yang lebih dalam banyak diantara kita yang mengawalinya dengan melakukan analisis deskriptif. Program R menyediakan tools untuk dapat mengetahui nilai mean, standard deviasi, nilai max dan minimum serta range. Berikut beberapa code di RStudio untuk menghitung nilai dari beberapa parameter statistika deskriptif:

  1. Mean: mean(nama.variable)
  2. Standard deviation: sd(nama.variable)
  3. Nilai maksimum (maximum value): max(nama.variable)
  4. Nilai minimum (minimum value): min(nama.variable)
  5. Range: range(nama.variable) 

Pada kesempatan ini, kita akan menghitung mean, sd, max, min, dan range dari Data Tinggi Tanaman sudah pernah kita gunakan pada tutorial sebelumnya. Untuk melakukan analisis deskriptif ada beberapa langkah dilakukan, sama seperti awal saat kita memasukkan data tinggi tanaman.

  1. Dengan menggunakan Ms. Excel, Ubah data tersebut dari format *.xlsx ke *.csv
  2. Buka RStudio
  3. Masukkan data tersebut ke RStudio (bisa melihat tulisan saya sebelumnya)
  4. Tulis names(Data1) untuk melihat nama variable yang digunakan pada data tersebut
  5. Attachdata dengan menuliskan attach(Data1) di jendela console dan tekan enter
  6. Tulis kode-kode diatas dan ganti nama variable dengan nama variable tinggi tanaman (Tinggi..cm.). Kode-kode tersebut selanjutnya berubah menjadi:
      • mean(Tinggi..cm.)
      • sd(Tinggi..cm.)
      • max(Tinggi..cm.)
      • min(Tinggi..cm.)
      • range(Tinggi..cm.)
  1. Setelah semua tertulis, tekan enter, maka akan keluar output seperti di bawah ini :Slide4

Cara input data pada RStudio

Bagi rekan yang menggunakan program R sebagai tools dalam pengolahan data maka kegiatan input data merupakan hal yang sangat penting saat memulai analisis data. Di bawah ini saya sampaikan bagaimana menginput data melalui R Studio. Semoga bermanfaat

  1. Silahkan mendownload file berikut : data_tinggi_tanaman lalu buka file tersebut dengan menggunakan Microsoft Excel. Format yang digunakan sebagai bahan input harus dalam bentuk format .csv oleh sebab itu lakukan perubahan format file dengan cara Pilih menu > file > save as dan dilanjutkan dengan memilih direktori penyimpanan file. Setelah kotak dialog Save As muncul, pada drop-downsave as type pilih CSV (Comma delimited) kemudian simpan dengan nama yang sama lalu klik save.
  2. Langkah selanjutnya buka RStudio, tulis kode berikut Data1 <- read.csv(file.choose(), header=TRUE)pada jendela consoledan tekan enter. Penjelasan dari kode Data1 <- read.csv(file.choose(), header=TRUE) adalah
    • Data1 merupakan identifier (nama) dari data yang anda masukan. Saudara dapat menggantinya dengan nama lain sesuai keinginan saudara.
    • read.csv berarti file yang akan dibuka berformat csv.
    • file.choose() berarti file yang akan dibuka ditentukan dengan cara memilih
    • Header=TRUE berarti baris pertama pada file csv tersebut akan digunakan sebagai header.
  1. Setelah muncul kotak dialog Select file, pilih file Data Tinggi Tanaman.csv, lalu klik OpenSlide2
  2. Untuk melihat data yang di-input-kan, tulis code View(Data1)pada jendela console.

Slide3

  1. Apabila data berhasil dimasukkan, data tersebut akan terlihat di jendela View Files and Data

Analisis Komponen Utama (Principal Component Analysis/PCA)

Analisis Komponen Utama (Principal Component Analysis)

Analisis komponen utama (AKU) adalah salah satu metode yang digunakan untuk mengatasi permasalahan ketika kita menghadapi begitu banyaknya dimensi gugus data yang diperoleh dalam sebuah penelitian. Banyaknya sumber daya data yang kita peroleh seringkali mengakibatkan tumpang tindih antara data yang satu dengan data yang lainnnya, AKU mampu mempertahankan sebagian besar informasi yang diukur dengan menggunakan sedikit peubah yang menjadi komponen utamanya saja.

Sebagai contoh analisis komponen utama dapat digunakan peneliti yang sedang melakukan pengamatan karakterisasi tanaman. Akan ada begitu banyak gugus data yang diperoleh seperti tinggi tanaman, jumlah daun, panjang dan lebar daun, jumlah batang, panjang batang, diameter batang, jumlah tunas, dan masih banyak yang lainnya. Tentunya peneliti menginginkan data yang diperoleh tidak sebanyak data tersebut namun tanpa kehilangan informasi yang diukur.

Menentukan banyaknya komponen utama dapat ditentukan dengan tiga metode yaitu berdasarkan kumulatif proporsi keragaman total, menggunakan matriks korelasi dan penggunaan grafik/plot scree.

Ada banyak aplikasi/software statistik yang dapat kita gunakan untuk menentukan jumlah komponen utama saat ini saya akan mencoba menggunakan aplokasi SAS untuk menentukan banyaknya komponen utama. Prosedur PRINCOMP merupakan prosedur yang biasa digunakan dalam mengerjakan analisis komponen utama. Bentuk perintahnya adalah :

PROC PRINCOMP;

VAR variables;

RUN;

Berikut ini ilustrasi penggunaan aplikasi SAS untuk analisis komponen utama.

Sejumlah benih mendapatkan perlakuan radiasi sinar gamma untuk memperoleh mutan tanaman jeruk yang memiliki keragaman yang tinggi. Keragaman yang diperoleh dapat digunakan untuk bahan seleksi sehingga diperoleh tanaman jeruk unggul. Benih tanaman jeruk hasil radiasi ini ditanaman pada sepetak lahan kemudian diamati karakter vegetatifnya. Dari sejumlah benih yang ditanam dalam beberapa bulan setelah tanamn ternyata hanya 10 tanaman jeruk yang mampu bertahan.

Langkah pertama adalah kita harus memasukan data terlebih dahulu seperti di bawah ini :

Jeruk

Keterangan     : TT=Tinggi tanaman, JB=jumlah batang, DB=Diameter batang, JD=Jumlah daun, PDL=panjang daun terluas, PDS=Panjang daun tersempit, LDL=Lebar daun terluas, LDS=Lebar daun tersempit, PPL=panjang petiole daun terluas, PPS=panjang petiole daun tersempit, BB=Bobot buah.

Catatan          : Dalam analisis yang sesungguhnya sebaiknya perlu dilakukan eksplorasi data lengkap termasuk pembuatan plot dan grafik analisis korelasi dan statistika deskriptif. Pada ilustrasi ini kita lakukan korelasi antar peubah yang terlibat seperti di bawah ini :

Jeruk2

Keluaran dari perintah di atas adalah :

Korelasi Jeruk

Jika kita amati secara seksama tabel korelasi di atas kita lihat bahwa beberapa peubah saling berkorelasi. Misalnya saja tinggi tanaman berkorelasi dengan diameter batang dengan koefisien korelasi sebesar 0,48032. Selanjutnya, untuk memperoleh komponen utama perintah yang diberikan adalah :

Jeruk3

Out put yang dihasilkan terdiri atas beberapa bagian yang perlu dicermati. Pertama, PROC PRINCOMP membuat daftar banyaknya peubah dan objek yang diamati (Gambar). Selanjutnya PROC PRINCOMP menampilkan akar ciri dan vektor ciri dari matrix korelasi. Akar ciri dapat diinterpretasikan sebagai ragam dari kombinasi-kombinasi komponen dan vektor ciri sebagai bobot yang digunakan untuk menyusun skor komponen utama.

Jeruk4

Jeruk5

Komponen utama pertama mengandung hampir 50% keragaman data asal dan empat komponen pertama mampu menjelaskan hampir 95% keragaman data. Masing-masing komponen sisanya hanya memiliki kontribusi keragaman kurang dari lima persen, ini berarti kita bisa membuang komponen-komponen akhir, kita hanya empat komponen pertama tanpa kehilangan banyak informasi.

Output hasil selanjutnya adalah sebagai berikut :

Jeruk6

Vektor-vektor ciri dapat diinterpretasikan sebagaikoefisien yang menyusun skor komponen dari data terpusat. Jika kita melihat besarnya koefisien pada KU terlihat bahwa nilai koefisien ada yang bernilai negatif dan positif, hal ini wajar dalam analisis komponen utama. Dengan melihat nilai dari vektor ciri tersebut maka diperoleh :

KU1 TT, PDL, LDL, dan LDS.
KU2 PPL dan PPS.
KU3 DB dan BB.
KU4 JB, JD dan PDS.

 Demikian ulasan singkat analisis komponen utama, semoga bermanfaat 🙂

Membuat SAS data set, melihat dan mencetak data (1)

Data yang akan dianalisis disebut dengan SAS data set. Cara yang dapat kita lakukan untuk membuat data set baru yaitu dengan menuliskan data pada program editor. Perintah yang digunakan untuk membuat data dengan cara ini adalah sebagai berikut :

Data
Input ….;
Datalines;

Run;

Sebagai contoh apabila kita membuat data ukurantanaman yang terdiri dari empat kolom yaitu nama tanman, tinggi (dalam cm), bobot (dalam gram), warna buah (1 untuk hijau dan 2 untuk merah), maka perintah dapat diberikan antara lain ditampilkan pada gambar 1.
SAS1

Dari penulisan data pada editor di atas ada beberapa yang harus diperhatikan :
1. Satu buah pernyataan selalu diakhiri dengan tanda titik koma;
2. Nama data atau variabel selalu diawali dengan karakter berupa abjad atau garis bawah, karakter keduadan seterusnya dapat berupa abjad, angka atau garis bawah.
3. Ada empat variabel pada data ukuran tanaman yaitu namatan, tinggitan, bobot dan warna. Nama variabel tersebut harus disebutkan pada pernyataan input.
4. Perhatikan bahwa setelah variabel namatan terdapat karakter $ yang menunjukan bahwa peubah ini bertipe string atau teks, sedangkan variabel lainnya tidak diikuti tanda $ yang berarti variabel bertipe numerik/angka.
5. Baris nilai data muncul setelah kata cards
6. Tidak ada tanda titik koma pada setiap baris data, tanda ini hanya diperlukan pada baris terakhir data.

Program di atas dapat dijalankan dengan menekan tombol submit pada toolbar atau dengan menekan tombol F8 pada keyboard. Pada jendela Log akaSAS2n terlihat laporan bahwa sebuah data set baru telah dihasilkan.

 

Untuk melihat isi dari data tersebut dapat menggunakan Proc print yang outputnya berupa cetakan semua isi data pada file tertentu pada jendela output dengan perintah.

Proc print data=ukurantanaman;

Run;

SAS3

Cara lain yang dapat digunakan adalah klik ganda pada icon libraries, cari dan klik ganda pada icon librari work, cari dan klik ganda pada icon data ukurantanaman.

SAS4

Sementara itu apabila kita ingin melihat nama-nama variabel dan informasi lain kita dapat menggunakan proc contents. Mengetahui nama variabel ini penting karena nama tersebut harus kita sebutkan dalam banyak perintah berikutnya.

Proc contents data=ukurantanaman;

Runs;