Pengenalan Pola/ Pattern...

27
Dasar Pengenalan Pola 2 Imam Cholissodin S.Si., M.Kom. Pengenalan Pola/ Pattern Recognition

Transcript of Pengenalan Pola/ Pattern...

Dasar Pengenalan Pola 2

Imam Cholissodin S.Si., M.Kom.

Pengenalan Pola/

Pattern Recognition

Dasar Pengenalan Pola 2

1. The Design Cycle

2. Collect Data

3. Object to Dataset

4. Feature Selection Using PCA

– Menghitung Eigen Value

– Menghitung Eigen Vector

– Transformasi Data Fitur

– Menghitung Nilai Error

5. Tugas

The Design Cycle

Collect data

Choose features

Choose model

Train system

Evaluate system

Apa sensor yang harus kita gunakan?

Bagaimana mengumpulkan data?

Bagaimana mengetahui fitur apa yang dipilih,

dan bagaimana kita memilihnya ...?

(Misal transformasi data fitur dengan PCA)

Apa classifier yang akan digunakan?

Apakah ada classifier yang terbaik ...?

Bagaimana kita melakukan proses Training?

Bagaimana mengevaluasi kinerja sistem?

Bagaimana memvalidasi hasil?

Berapakah tingkat kepercayaan hasil keputusan?

Collect Data

• Mengambil nilai data dari objek, Tipe data berdasarkan

penskalaan datanya :

– Data Kualitatif : Data yang bukan berupa angka,. Terbagi dua :

• Nominal : Data yang paling rendah dalam level pengukuran

data. Contoh : Jenis kelamin, Merk mobil, Nama tempat

• Ordinal : Ada tingkatan data. Contoh : Sangat setuju, Setuju,

kurang setuju, tidak setuju.

– Data Kuantitatif : Data berupa angka dalam arti sebenarnya.

Terbagi dua :

• Data Interval, Contoh : Interval temperatur ruang adalah sbb

: Cukup panas jika antara 50C-80 C, Panas jika antara 80

C-110 C, Sangat panas jika antara 110 C-140 C.

• Data Rasio, Tingkat pengukuran paling „tinggi‟ ; bersifat

angka dalam arti sesungguhnya. Contoh : Tinggi badan,

Berat badan, Usia.

• Ilustrasi transformasi data dari objek yang diamati :

– Text

– Citra

– Audio

– Video

– Etc

Keterangan :

– M menyatakan banyak data, N menyatakan banyak fitur.

– Ektraksi fitur dilakukan jika data yang diamati masih berupa data

mentah (misalnya masih berupa kumpulan data awal).

– Fitur yang diambil adalah yang merupakan ciri khas yang membedakan

satu objek dengan objek lainnya.

Object to Dataset

No Fitur 1 Fitur 2 . . Fitur N Kelas

1

2

3

.

.

M

Dimensionality Reduction

• Problem : kompleksitas komputasi

terhadap pengenalan pola pada ruang

dimensi yang tinggi.

• Solusi : mapping data ke dalam ruang

dimensi yang lebih rendah

Dimensionality Reduction

• Pengurangan dimensi data dapat dilakukan

dengan :

• Mengkombinasikan Fitur (secara linear maupun non-

linear)

• Memilih himpunan bagian dari fitur-fitur yang tersedia

• Kombinasi Linier merupakan pendekatan yang

menarik karena metode tersebut dilakukan

dengan perhitungan yang sederhana dan

terlacak secara analitis

Dimensionality Reduction

• Diberikan x ϵ RN, dengan tujuan untuk mencari

transformasi linier U sehingga y = UTx ϵ RK

dimana K<N

NK

b

b

b

y

a

a

a

x

kN

...

litydimensionareduce...

2

1

2

1

Dimensionality Reduction

• Dua pendekatan klasik untuk menghitung

transformasi linier yang optimal :

– Principal Components Analysis (PCA): mencari

proyeksi yang menyediakan informasi sebanyak

mungkin dalam data dengan pendekatan least-

squares.

– Linear Discriminant Analysis (LDA): mencari proyeksi

terbaik yang dapat memisahkan data dengan

pendekatan least-squares.

• Tujuan PCA : mengurangi dimensi data dengan

mempertahankan sebanyak mungkin informasi

dari dataset yang asli.

Dimensionality Reduction

• Pendekatan vektor dengan menemukan basis

ke dalam ruang dimensi yang lebih rendah

– Representasi ruang Dimensi-Lebih Tinggi :

– Representasi ruang Dimensi-Lebih Rendah :

NNvavavax ...2211

Nvvv ,...,, 21 merupakan basis dari ruang dimensi N

KKubububx ...ˆ2211

Kuuu ,...,, 21 merupakan basis dari ruang dimensi K

Na

a

a

x...

2

1

kb

b

b

y...

2

1

Feature Selection Using PCA

• Pengurangan dimensi berdampak pada

hilangnya informasi

• PCA mempertahankan sebanyak mungkin

informasi, dengan cara meminimalkan error :

• Bagaimana caranya menentukan sub-ruang

dimensi yang lebih rendah yang terbaik ?

• Eigenvektor yang terbaik dari matriks covarians x

Eigenvalue yang terbesar

• Disebut sebagai Principal Components

xx ˆ

Feature Selection Using PCA

• Misalkan x1, x2, ..., xM terdapat dalam vektor N x 1

1. Mencari Mean (nilai rata-rata) dari data

2. Menghitung Zero Mean (setiap nilai pada data sampel

dikurangi nilai rata-rata tiap parameter yang terkait)

3. Membangun matriks Covarians dengan mengkalikan

matriks Zero Mean dengan transposenya

4. Menghitung eigenvalue

5. Menghitung matriks eigenvektor

6. Mengurangi dimensi N sebesar K dimensi yang

didapatkan dari eigenvalue yang terbesar sampai

sampai yang terkecil sebanyak K pertama

Feature Selection Using PCA

• Langkah 1: Mencari Mean Global (nilai rata-rata)

• Langkah 2: Menghitung Zero Mean

M

xxxx M

...21

M

xM

i

i 1

xxii

Feature Selection Using PCA

• Langkah 3: Membangun matriks Covarians

dengan mengkalikan matriks Zero Mean dengan

transposenya

– Populasi

– Sampel

M

i

i

T

iN

C1

1

M

i

i

T

iN

C11

1

Feature Selection Using PCA

• Langkah 4 : Menghitung eigenvalue dari C

• Hasil :

0)(

UCI

UIUC

UIUCI

UUC

0)det( CI

N ,...,,, 321

nmmm

n

n

N ccc

ccc

ccc

,2,1,

,22,21,2

,12,11,1

2

1

....

................

....

....

....00

................

0....0

0....0

nmNmm

n

n

ccc

ccc

ccc

,2,1,

,22,221,2

,12,11,11

....

................

....

....

Feature Selection Using PCA

• Langkah 5 : Menghitung eigenvektor

– Dari eigenvalue yang dihitung pada langkah 4,

disubstitusikan ke rumus :

– Selesaikan dengan menemukan nilai U

• Hasil :

0)( UCI

Nuuuu ,...,,, 321

Feature Selection Using PCA

• Langkah 6 : Mengurangi dimensi sebesar K

dimensi

– Pilihlah fitur sebanyak K berdasarkan nilai eigenvalue

terbesar

– merupakan hasil transformasi dari x x̂

K

i

ii NKwhereubxx1

ˆ

Feature Selection Using PCA

• PCA memproyeksikan data sepanjang suatu arah

dimana data tersebut memiliki varians yang tinggi

• Arah tersebut ditentukan oleh eigenvectors dari matriks

covariance yang memiliki nilai eigenvalues terbesar.

• Nilai besaran dari eigenvalues merupakan nilai varians

data sepanjang arah dari eigenvector (garis lurus merah

dan biru)

Feature Selection Using PCA

• Pemilihan nilai K menggunakan kriteria berikut :

• Pada contoh kasus diatas, dapat dikatakan bahwa kita

“menyediakan” 90% atau 95% informasi dari data yang

tersedia

• Jika K=N, maka kita “menyediakan” 100% dari data yang

tersedia

)95.09.0.,.(

1

1 orgeThresholdN

i

i

K

i

i

Feature Selection Using PCA

• Vektor asal x dapat dibangun kembali menggunakan

komponen prinsipal-nya

• PCA meminimalkan error dari rekonstruksi prinsipal

tersebut:

• Hal itu dapat ditunjukkan bahwa error sama dengan :

K

i

K

i

iiii xubxorubxx1 1

ˆˆ

xxe ˆ

N

Ki

ie1

2

1

PCA : Menghitung Eigen Value

• Misal diketahui dataset :

• Mean global

• Zero Mean

• Kovarian

No Fitur 1 Fitur 2 Kelas

1 P11 P12 Mobil

2 P21 P22 Rumah

D =

2221

1211

PP

PP

DataBanyak

PPx

_2111

1

51

24,

222121

212111

21

21misal

xPxP

xPxP

xx

xxD

2913

1317

2913

1317

12

1

51

24

51

24

1

1T

NC

DataBanyak

PPx

_2212

2

PCA : Menghitung Eigen Value

• Eigen Value :

0det CI

032446

01694931729

0169)29(1729

0169)29(17

013*13)29(17

02913

1317det

02913

1317

10

01*det

2

2

31782.372

63564.2846

68218.82

63564.2846

2

82046

2

1296211646

1*2

324*1*446)46(

2

4

2

1

2,1

2,1

2

2,1

2

2,1

a

acbb

31782.370

068218.8ValueEigenMatrik

PCA : Menghitung Eigen Vector

• Eigen Vector :

31782.370

068218.8ValueEigenMatrik

UCU

0

10

01

10

01

10

01

2

1

2221

1211

2

1

2

1

2221

1211

2

1

2

1

2221

1211

2

1

2

1

2221

1211

u

u

cc

cc

u

u

u

u

cc

cc

u

u

u

u

cc

cc

u

u

u

u

cc

cc

0)(

0)(

222121

212111

ucuc

ucuc

Vektor eigen didapatkan dengan

persamaan :

0)29(13

013)17(

21

21

uu

uu

2913

1317CMatrik kovarian :

Untuk λ1 = 8.68218 maka :

020.317813

0138.3178

21

21

uu

uu

PCA : Menghitung Eigen Vector

• Eigen Vector :

Untuk λ1 = 8.68218 maka :

020.317813

0138.3178

21

21

uu

uu

Untuk λ2 = 37.31782 maka :

08.3178-13

01320.3178-

21

21

uu

uu

Solusi non trivial sistem persamaan

ini adalah :

8.3178

13

138.3178

21

21

uu

uu

Misalkan maka

au 113

8.3178a2 u

Jadi vektor eigen untuk λ1 = 8.68218

adalah :

13

3178.8 aa

U

dimana a adalah bilangan sembarang

yang tidak nol.

Solusi non trivial sistem persamaan

ini adalah :

3178.20

13

133178.20

21

21

uu

uu

Misalkan maka

bu 2 3178.20

13b1 u

Jadi vektor eigen untuk λ2 = 37.31782

adalah :

b

bU 3178.20

13

dimana b adalah bilangan sembarang

yang tidak nol.

PCA : Menghitung Eigen Vector

• Eigen Vector :

Vektor eigen untuk λ1 = 8.68218

adalah :

13

3178.8 aa

U

misalkan a = -0.8423 maka

Vektor eigen untuk λ2 = 37.31782

adalah :

b

bU 3178.20

13

misalkan b = 0.8423 maka .

0.5389

0.8423-U

8423.0

0.5389U

Jadi Vektor eigen globalnya adalah :

8423.00.5389

0.53890.8423-U

PCA : Transformasi x

• Transformasi data fitur :

• Tentukan nilai K dengan 90%

informasi data yang kita gunakan

• Dari nilai K yang ditentukan akan

diperoleh fitur yang dijadikan sebagai

proses pengenalan pola

kkUxx ˆ

xx ˆ

Selesai